自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

科学小镇

微信公众号:科学小镇

  • 博客(6)
  • 收藏
  • 关注

原创 大数据揭秘: 原来单身女生有这些特点...

据媒体报道,中国目前的单身成年女性的数量已经超过一个多亿,也就是说14.3%的成年女性处于单身状态,与日本全国人口总数基本相当。知己知彼,百战不殆。如果你是一个单身女性,你可以看到自己的某些影子;如果是单身男生,你需要了解目标人群的特点;如果是已婚男士,要相信“天下凤凰一般美!!!”开始本文之前有几点说明:1、本文数据主要来自于某婚恋网站的爬虫搜索数据;2、该网站上的女生默认为单身...

2018-10-09 22:46:06 287

原创 基于Scrapy架构的网络爬虫入坑第三战(爬取某网站**头像到本地)

一、前言在Internet surfing的时候,经常会有这样的感叹:有些图片能自动保存到本地多好!省去右键另存为的麻烦,而且可以批量操作。比如这样:比如这样:二、方法首先观察网站涉及头像的源码,发现头像的网络地址在class = 'pic'的style中,截图如下:而后想到借助最近一直摸索的Scrapy架构,写一个爬虫程序:先定位到用户主页,利用urllib....

2018-10-08 20:51:15 204

原创 基于Scrapy架构的网络爬虫入坑第二战(数据存入MySQL)

第一战中,利用Scrapy架构爬取了58租房信息,存入到json文件中。json文件虽然好用,但是结构化和后续处理方面还存在一定的缺陷。为此,决定使用结构化数据库MySQL。第二战的主要内容是:首先利用Scrapy架构爬取某个小说网站上的小说信息,而后使用MySQLdb将结构化数据存入MySQL,最后利用Navicat Premium访问存储的数据。惊世三问!!!问:MySQL是什么?...

2018-10-07 23:26:45 240

原创 基于Scrapy架构的网络爬虫入坑第一战——爬取数据而后存入json文件

谈到爬虫,必出利器Scrapy。如果说之前的爬虫借助于个人知识的野蛮生长,那么Scrapy的诞生无疑降低了万众爬虫的门槛。什么是Scrapy?一言以蔽之:它是一个基于Python语言开发的网络数据抓取的框架,任何人都可以根据需求方便的修改。Scrapy由下面几个部分组成(上图来源于网络,侵删)spiders:爬虫的主模块,主要内容包括网页的解析和内容的结构化items:定义我们...

2018-10-06 21:20:06 1490

原创 这就是江湖——浅析芯片架构演变的爱恨情仇

江湖一词源于《庄子·大宗师篇》:泉涸,鱼双与处于陆,相掬以湿,相濡以沫,不如相忘于江湖。而后在古龙武侠小说《三少爷的剑》中借杀手燕十三之言:“人在江湖,身不由己”,更成为惊世之言。诚如所言:有人的地方就是江湖,只要有人,就会有恩怨。 在这个世界上,还有一种名字叫做芯片的物种,在地球上已经与人类和谐共生了几十年。在芯片初期,仅有C帮(CISC,复杂指令集)这个天下第一帮。这个帮派的众多芯片神通广...

2018-09-09 00:14:17 556

原创 《延禧攻略》演员大起底——利用Python+bs+pyecharts分析绘制词云和玫瑰图

最近大火的电视剧《延禧攻略》已宣告大结局,除了剧情走心,演员的那些头花啊头饰啊,戏服也都精致无比。本文利用Python抓取互联网上演员的部分数据,分析演员的姓名、星座、身高、体重和籍贯等信息,利用bs+pyecharts绘制词云和玫瑰图。为什么这么闲?《延禧攻略》可以说是于正的洗白之作,没有特别的戏说,也没有异想天开的改编,在基本尊重历史事实的基础上,通过魏璎珞(令妃)的视角窥探整个后宫的...

2018-09-01 15:11:20 1272 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除