爬虫
文章平均质量分 63
Analyst128
主要方向:数据可视化以及爬虫系列。微信:qingfxy28
展开
-
网页爬取的三种方式
爬取的重点在于分析网页结构,以爬取淘宝网图片为例:爬取网页有三种方式:1.urllib.request2.封装Request请求3.urlretrieve直接写入硬盘下面以第三种方法爬取xxx图片代码如下:#爬取网页有三种方式:urllib.request,封装Request请求,urlretrieve直接写入硬盘,下面以第三种方法爬取xxx图片import urllib.r...原创 2018-09-10 20:13:44 · 3380 阅读 · 0 评论 -
抢票软件项目开发
项目需求分析整个项目应实现:浏览器自动登录12306网站,查询余票,车票预订,到自动提交系统支付的功能。具体包括:登录界面的cookie处理(保持登录界面)、登录时的验证码处理、余票查询、提交订单等部分。分析:借助工具fiddler,作为整个数据传输的记录环节。整个登录环节包括六个部分的验证才能实现。用到的模块:urllib.request:获取网页re:正则ssl:提供ht...原创 2018-09-12 19:38:24 · 12457 阅读 · 2 评论 -
爬虫打破封禁的几种方法
写在前面的话:爬虫有风险,使用需谨慎(应当遵守行业道德及职业操守,遵守国家法律法规。以下内容均是在此前提下进行操作)反爬技术基本有:模拟登陆,模拟浏览器,代理服务器......文章在持续更新总结梳理中......1.代理服务器的设置目的:防止自有IP地址被屏蔽推荐免费的代理服务器列表:http://www.xicidaili.com/ 建立自定义函数,利用代理服务器爬取网页内容...原创 2018-08-24 22:25:25 · 961 阅读 · 0 评论 -
多线程爬虫
关键词:多条路径,并行结构,同时进行正常情况下,爬虫程序都是有执行的先后顺序的,执行流程都在一条线上,即所谓的单线程爬虫。相对应的,如果爬虫中的某部分程序可以并行执行,即在多条线上执行,则这种执行结构称为多线程结构(这里的多线程和Java等语言中的类似),对应的爬虫也称为多线程爬虫,。代码解读如下:#AB线程同时运行,时间上会减少import threadingclass A(t...原创 2018-08-29 19:31:10 · 385 阅读 · 0 评论 -
XPath部分总结
关键词:网络采集数据,网页特定内容提取在网络爬虫中,对爬取到的数据进行筛选和提取的方式主要有两种:正则表达式和XPath,后者常用于scrapy框架中。定义:XPath是一种XML路径语言,通过该语言可以在XML文档中迅速地查询到相应的信息,XPath表达式通常叫做XPath selector。1."/" 表示从顶端开始寻找某个标签(多层标签的查找)以提取title标题为例:例如...原创 2018-08-29 19:34:09 · 321 阅读 · 0 评论 -
香蜜沉沉烬如霜视频评论抓取
腾讯视频评论以最近火热的电视剧<香蜜沉沉烬如霜>为例,用fiddler抓包分析爬取腾讯动态视频import urllib.requestimport revid='2942827004'cid='0'for i in range(0,100): #爬取100次翻页 try: print('.....正在输出第'+str(i+...原创 2018-09-18 23:20:20 · 639 阅读 · 2 评论