2018年09月_Voccoo

11月 10月 09月 08月

原创 acfun网站400W用户数据分析和pyecharts可视化

首先在这给我心爱的Acfun说句抱歉了，这几天进行的数据爬取如果对猴山产生了不好的影响，请接受我的道歉。本次所有代码都会上传到GitHub上：爬虫部分和ip搜索部分sql文件地址：百度云盘密码：5xov项目代码分成三个部分：1、爬取基础数据2、根据ip地址查询相对应的省市地址3、统计：将你想查看的html复制下来然后网页打开就能看到效果了本次实例是通过分析A站获取用户数据的接口，通...

2018-09-26 01:56:11 2341

原创 scrapy-redis实例，分布爬虫爬取腾讯新闻，保存在数据库中

项目结构： setting# -*- coding: utf-8 -*-import randomfrom newsSpider.userAgent import USER_AGENT_LISTBOT_NAME = 'newsSpider'SPIDER_MODULES = ['newsSpider.spiders']NEWSPIDER_MODULE = 'newsSpi...

2018-09-15 19:14:36 3092 2

原创最简单的分布式爬虫组合

这两天写爬虫，用了下redis，突然想起来没有写过有关于redis的使用指南，其实也是自己使用过程中遇到的坑罢了，如果有不对的地方，希望大家能指正。本篇文章主要介绍的是redis和scrapy的使用，也就是主要做分布式爬虫时候需要用到的新手们也不要对redis这个东西有抵触，很简单的，一教就会。比如：在一场运动会中，田径比赛中有各个项目，如果只有一个选手（scrapy）要把所有的项目都...

2018-09-12 23:17:32 274

原创 python 3.X 使用selenium破解通用一二代滑块验证(有原图的)，以虎X网为列子（图片像素对比）

前几天看到有位大大写的破解极验证码，也就是二十滑块验证滑块验证。本偏文章主要借鉴了其中的图片像素对比的方法，在原基础上尽心的修改创作。让本demo更适用于多个网站和一二代的滑块验证。还有一个原因是原作者的demo我跑不通，逻辑出现了bug。原作者地址：https://mp.weixin.qq.com/s/_SKphxxGg7Plgv9iG_LOkw 代码中我会详细的解释每一步的作用，...

2018-09-06 15:31:21 1221

原创 scrapy框架下的豆瓣电影评论爬取以及登录，以及生成词云和柱状图

由于豆瓣在今年5月份已经禁止展示所有短评，只展示最热的500条数据，并且在爬取到240条的时候，如果没有登录的话，会提示登录。因此几天的爬虫，包括豆瓣的自动登录和数据爬取后批量存入pymysql数据库。在这个爬虫完成后，其实我也在页面上找了下，在全部评论里还是能看到带有页数分页的评论的，在下面代码的基础上修改下路径和爬取数据的逻辑，其实也是能爬取的。本文是基于scrapy框架，pyth...

2018-09-04 14:27:45 1270 1

kafka初尝试.7z

适用于windows下python环境，kafka-python操作的kafka环境。 kafka和zookeeper已经在里面了。修改下启动的bat路径即可，我在里面写的是绝对路径，打击可以修改下实例demo也已经存在了。更多功能，大家可以继续扩展。

2019-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人