2017年02月_罗罗攀

原创 Python数据分析之jieba库的运用

三十年河东，三十年河西，莫欺少年穷！年仅15岁的萧家废物，于此地，立下了誓言，从今以后便一步步走向斗气大陆巅峰！这里是属于斗气的世界，没有花俏艳丽的魔法，有的，仅仅是繁衍到巅峰的斗气！《斗破苍穹》可谓玄幻小说的巅峰之作，曾经痴迷到彻夜看小说，回不到的过去，等不到的未来！今天就利用python的jieba库以及在线制作词云工具TAGUL，制作《斗破苍穹...

2017-02-23 19:51:00 296

原创爬虫专题分析

爬虫专题已建立一周有余，做为管理员，也不能白占着位置不干活，今天通过爬虫得到的用户信息和收录文章信息，给大家分析下爬虫专题的优势与不足。用户信息表创建者爬虫专题的创建者为向右奔跑，他同时也是@IT·互联网，今日看点的编辑；2015年9月23号入住简书，平均每天更新文章0.28篇；文章内容多为python爬虫和长跑；通过表，可以看出，每个...

2017-02-23 11:33:00 170

原创简书风云榜

由于开学原因，数据爬取中断，共爬取了347294条数据。爬取时间为2月14号。以粉丝量进行排序排名，列出简书千人风云榜。此文章不代表简书官方数据。签约作者总共爬取了93个签约作者，前100名中签约作者有69个，其他为31个（还有一些为简书官方工作号（爬取信息时未考虑））：...

2017-02-19 11:10:00 137

原创 Python数据分析之简书七日热门数据分析

之前爬了一些数据，没有做分析，今天在练习jupyter notebook的使用，干脆拿了2月七号爬取的七日热门数据来进行简单的分析，主要运用了mongodb的pipeline管道等技术加上charts包的使用。七日热门的文章发布日期第一次看了下效果，感觉是标题党（说好的七日热门呢），可能是因为有些文章太好，以至于一直存留吧，然后对超过七天...

2017-02-15 20:03:00 263

原创 Python数据分析之anaconda安装和使用

今天开始学习Python数据分析了，说到Python数据分析，大家都会推荐使用anaconda，但作为一个初学者，总是很多疑虑，但在实践中解决了一部分，先和大家分享分享。疑虑最大的疑虑就是：安装了anaconda会和之前安装的Python冲突吗？pycharm中使用的是哪一个呢？大家其实不用担心，我们打开pycharm的default settin...

2017-02-15 12:18:00 468

原创简书非官方大数据（三）

最近回老家了一趟，爬取简书的程序也就停下来了，回到长沙继续爬，很高兴的爬到了300W左右，导出来一看，好多重复的，我记得我说过设置过的，拿到代码一看，晕：插入的是author_infos表，但判断却是author_url表，然后我就打算去重后调用url爬取用户详细信息，可耐mongodb去重不会，自己百度了下也没搞明白；再者，向右前辈说我...

2017-02-14 17:46:00 142

原创简书非官方大数据（二）

PS：这条很重要，我的文章中所说的大数据并不是现在很火的大数据话题，前几天看过一篇大数据的文章，简单来说：当一台电脑没法处理或你现在的条件没法处理的数据就可以谈的上大数据了，这个没有指定的数据量。爬虫爬了一晚上，到目前为止已爬取170W+，大早上想了一下，效率不够，我又不会分布式爬虫，也只好停下来改代码了，这时细心的朋友就会想到我要解释断点续爬了啊（断了...

2017-02-10 10:26:00 96

原创简书非官方大数据（一）

昨天安稳的开始了Python数据分析的学习，向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析，像我这种爱好学习（不行，让我吐一下），当然是答应了。说实话，这个实战对我来说，难度很大：1 数据的获取：我爬取最大的数据也就是20W+，简单的scrapy还能写一点，但简书用户量巨大，第一次尝试百万级甚至千万级数据的爬取。2 数据的清洗和处理： “...

2017-02-09 20:52:00 132

原创 Python爬虫之煎蛋网图片下载

受程序员群的影响（自己污的本性），他们总是带我开车，想想我也该收集一些资料了（美女图片）代码import requestsfrom lxml import etreeurls = ['http://jandan.net/ooxx/page-{}'.format(str(i)) for i in range(0,20)]path = 'C://U...

2017-02-08 22:29:00 223

原创 Python爬虫之scrapy跨页面爬取信息

昨天凌晨2点醒了看了下向右奔跑的文章，准备来个scrapy跨页面的数据爬取，以简书七日热门数据为例。1 items.py代码from scrapy.item import Item,Fieldclass SevendayItem(Item): article_url = Field()#文章链接在首页爬取 author = Fiel...

2017-02-07 19:47:00 592 1

原创 Python爬虫之简书七日热门数据爬取（异步加载详解）

最近在家干活，好几天没更新了，最近好友程兄也开始写简书了，大家可以多看看，讲的很详细（我毕竟懒）；正好碰到他问异步加载的问题，那我今天就已简书七日热门为例，给大家讲讲异步加载的数据怎么爬。异步加载分析1 先看看网页：看上去也没什么特别的地方，但往下拉是这样的： ...

2017-02-07 19:31:00 235

原创 Python爬虫之多进程爬取（以58同城二手市场为例）

今天以58同城的二手市场为例（也就是转转）给大家介绍一下大规模的结构数据怎么爬取。分析先看下转转的网页结构与我想爬取的数据： ...

2017-02-04 20:17:00 420

原创 Python爬虫之scrapy从入门到忘记

一、初窥scrapyscrapy中文文档Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者...

2017-02-01 19:49:00 94

罗罗攀