自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Voccoo的博客

做好没有女朋友的准备了吗?

  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 acfun网站400W用户数据分析和pyecharts可视化

首先在这给我心爱的Acfun说句抱歉了,这几天进行的数据爬取如果对猴山产生了不好的影响,请接受我的道歉。本次所有代码都会上传到GitHub上:爬虫部分和ip搜索部分sql文件地址:百度云盘 密码:5xov项目代码分成三个部分:1、爬取基础数据2、根据ip地址查询相对应的省市地址3、统计:将你想查看的html复制下来然后网页打开就能看到效果了本次实例是通过分析A站获取用户数据的接口,通...

2018-09-26 01:56:11 2341

原创 scrapy-redis实例,分布爬虫爬取腾讯新闻,保存在数据库中

项目结构: setting# -*- coding: utf-8 -*-import randomfrom newsSpider.userAgent import USER_AGENT_LISTBOT_NAME = 'newsSpider'SPIDER_MODULES = ['newsSpider.spiders']NEWSPIDER_MODULE = 'newsSpi...

2018-09-15 19:14:36 3092 2

原创 最简单的分布式爬虫组合

这两天写爬虫,用了下redis,突然想起来没有写过有关于redis的使用指南,其实也是自己使用过程中遇到的坑罢了,如果有不对的地方,希望大家能指正。本篇文章主要介绍的是redis和scrapy的使用,也就是主要做分布式爬虫时候需要用到的 新手们也不要对redis这个东西有抵触,很简单的,一教就会。 比如:在一场运动会中,田径比赛中有各个项目,如果只有一个选手(scrapy)要把所有的项目都...

2018-09-12 23:17:32 274

原创 python 3.X 使用selenium破解通用一二代滑块验证(有原图的),以虎X网为列子(图片像素对比)

前几天看到有位大大写的破解极验证码,也就是二十滑块验证滑块验证。 本偏文章主要借鉴了其中的图片像素对比的方法,在原基础上尽心的修改创作。让本demo更适用于多个网站和一二代的滑块验证。 还有一个原因是原作者的demo我跑不通,逻辑出现了bug。 原作者地址:https://mp.weixin.qq.com/s/_SKphxxGg7Plgv9iG_LOkw 代码中我会详细的解释每一步的作用,...

2018-09-06 15:31:21 1221

原创 scrapy框架下的豆瓣电影评论爬取以及登录,以及生成词云和柱状图

由于豆瓣在今年5月份已经禁止展示所有短评,只展示最热的500条数据,并且在爬取到240条的时候,如果没有登录的话,会提示登录。 因此几天的爬虫,包括豆瓣的自动登录和数据爬取后批量存入pymysql数据库。在这个爬虫完成后,其实我也在页面上找了下,在全部评论里还是能看到带有页数分页的评论的,在下面代码的基础上修改下路径和爬取数据的逻辑,其实也是能爬取的。本文是基于scrapy框架,pyth...

2018-09-04 14:27:45 1270 1

kafka初尝试.7z

适用于windows下python环境,kafka-python操作的kafka环境。 kafka和zookeeper已经在里面了。 修改下启动的bat路径即可,我在里面写的是绝对路径,打击可以修改下 实例demo也已经存在了。更多功能,大家可以继续扩展。

2019-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除