爬虫
loong_XL
这个作者很懒,什么都没留下…
展开
-
豆瓣、网易云、谷歌、微博热榜词云
1、豆瓣import requestsimport jsonimport timeimport csvimport pymysqlimport codecsfrom textrank4zh import TextRank4Keyword, TextRank4Sentenceimport hashlib# import timeimport randomimport http.clientfrom lxml import etreeimport urllibimport datet原创 2020-08-03 15:31:48 · 434 阅读 · 0 评论 -
淘宝商品及评论抓取
需要用cookie才能抓取,另外信息在代码里隐藏,需要正则匹配提取import requestsimport refrom lxml import etreeimport jsonheaders1 = { "authority":"authority", "cookie":"t=9112f19ggggUjn6IZNGOI_GrdT9tGz36F", "user...原创 2019-04-15 12:10:46 · 5852 阅读 · 7 评论 -
小红书百度快照抓取
import requestsfrom lxml import etreeimport reimport timeimport datetimedef down(url): headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like...原创 2019-03-03 10:05:43 · 3921 阅读 · 0 评论 -
饿了么微信小程序抓取
1.评论版本import requestsfrom lxml import etreeimport reimport jsonimport csvimport pandas as pdimport hashlibproduct_lists=[]def down_load(url): headers1 = { # "Cookie":"SINAGLOBAL=...原创 2019-03-03 10:05:17 · 4302 阅读 · 2 评论 -
下厨房抓取
import requestsfrom lxml import etreeimport reimport jsonimport csvimport pandas as pdimport hashlibproduct_lists=[]def down_load(url): headers1 = { # "Cookie":"SINAGLOBAL=7238757...原创 2019-03-03 10:04:39 · 643 阅读 · 0 评论 -
scrapy天猫爬取302问题和centos服务器运行scrapy脚本报错 import twisted.persisted.styles
抓取天猫的时候被302拒绝,后面setting设置cookie解决,Disable cookies (enabled by default)COOKIES_ENABLED =False我的理解是,如果没有自定义cookies而 使用scrapy自带的cookies,会被网站识别为机器人,因此如果爬虫不需要使用cookies,那就先把它禁掉。...原创 2019-01-04 14:02:27 · 431 阅读 · 0 评论 -
爬虫大规模高并发服务器利用负载均衡优化
1、写出成功运行程序了是第一步,后续要考虑程序的茁壮、稳定、大规模、并发等问题了这里针对服务器的负载均衡参数htop命令查看,进而来优化爬虫程序更高速的抓取和利用服务器资源,可以看着优化增加线程等等方式2、优化程序可以通过创建队列方式,设置while循环和条件队列不为空判断一直执行下去,然后对于负载可以平衡增减协程数量进行优化...原创 2019-09-27 10:21:08 · 562 阅读 · 0 评论 -
爬虫异常重试次数设置和断点续爬
111原创 2019-09-19 18:02:49 · 868 阅读 · 0 评论 -
今日头条新闻数据抓取
今日头条新闻信息抓取 注意的是头条获取的ajax动态数据(数据里还是有点小坑的),json中data数据的9和19是无用信息,另外图片和视频类型也需要排除 # coding=gbkimport requestsimport jsonimport pandas as pdfrom lxml import etreeimport reimport csv# false=""...原创 2019-04-24 11:15:19 · 8244 阅读 · 5 评论 -
微博个人资料信息抓取
import geventimport gevent.monkeygevent.monkey.patch_all()import refrom lxml import etreeimport requestsimport jsonimport pandas as pdimport timeimport csvimport threadings=requests.Se...原创 2019-03-03 10:01:06 · 1594 阅读 · 3 评论 -
多线程与协程爬取使用方法,多线程threading,协程gevent和multiprocessing多进程,multiprocessing.dummy多线程
#多线程与协程的使用会大大加速抓取速度,多线程算并发会产生重复和写入冲突等问题,协程会自动切换这块比较好点分别主要是两个模块,多线程threading,协程gevent1、多线程threading版***多线程使用最主要就是给个线程分配内容的问题,这有些小技巧,主要就是最后几句,取模运算分配import refrom lxml import etreeimport requestsi......原创 2018-12-17 17:38:07 · 708 阅读 · 0 评论 -
爬虫-携程酒店信息抓取降妖除魔(上)
#上篇主要讲的具体酒店详情页的信息提取(特别价格),下篇主要讲页面酒店数量及相关信息的提取#整个爬取过程确实很多坑,需要一步步去破解实现,需要耐心1.首先找到需要的数据源就很不容易,ajax加载,json数据在html处,最后还需要对html(string)进行解析抓取2,爬取提交requests数据headers、data参数也是需要深入分析,get提交参数都在链接里,每个酒店链接就不一...原创 2018-10-11 19:08:24 · 5864 阅读 · 3 评论 -
爬虫数据分析携程酒店:pandas结合matplotlib
#本篇主要是针对抓取下来的数据进行进一步的清晰和提取有用信息,并且可视化1.数据提取,这部分我就直接用之前的数据,总共7000多条2.读取和实现,我把代码先放上,具体有备注import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlib as mpl # 配置字体import...原创 2018-10-13 18:51:58 · 1773 阅读 · 2 评论 -
智联招聘抓取---scrapy框架和requests库两种方式实现
#首先分析目标站点,分析得出结果是在json接口里,然后榨取企业信息需要再次请求页面进行抓取#1.直接requests请求进行抓取保存##需要注意点:可能不同企业单页排版不一样,需要判断采取不同形式保存为csv文件注意格式,保证数据表格不换行需要添加 newline=’’import requestsimport jsonfrom lxml import etreeimpor...原创 2018-09-26 13:02:22 · 964 阅读 · 2 评论 -
反爬-今日头条cookie登录和豆瓣session维持会话
#分析目标网站,发现信息在json数据中,然后翻页链接start参数是60倍数url:https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=60&cityId=530&workExperience=-1&education=-1&companyType原创 2018-09-25 23:47:46 · 3318 阅读 · 1 评论 -
scrapy结合selenium使用加上scrapyd部署scrapy爬虫当当项目
1.scrapy项目结合selenium抓取动态复杂js网站#scrapy项目本身不大支持动态网站抓取,结合selenium可以解决项目中很多问题,selenium的使用主要是在middlewares中间件中使用,原理大概是spider传递过来的request不通过下载器直接下载而是通过下载中间件中selenium直接处理返回response给spider进行解析#scrapy和seleni...原创 2018-09-16 22:06:27 · 888 阅读 · 1 评论 -
爬虫加tkinter做的中英互译小软件
1,利用python自带的GUI图形库tkinter建立翻译软件的窗口创建窗口 tkinter.Tk() 创建按钮 tkinter.Button() 创建标签 tkinter.Lable() 创建输入框 tkinter.Entry() 2,通过爬虫抓取有道翻译,post所需要的翻译内容,抓取json接口内的内容,直接用切片分析站点 http://fanyi.youdao....原创 2018-09-03 22:55:57 · 995 阅读 · 0 评论 -
爬虫用fiddler抓取网易新闻客户端手机app内容
一,工具电脑安卓模拟器:夜神模拟器抓包工具:fiddler代码:pycharm二、分析1.首先要设置好fiddler和夜神模拟器的关联,这个网上很多教程这里不做介绍2.打开网易app,观察fiddler抓包列表,尽量先清空下然后刷新网易这样再次观察更清晰3.找到内容的包,当然这个需要多观察,看到一个json的api接口4.分析json数据能看到内容的标题,来源,简介和新...原创 2018-09-08 11:27:04 · 4355 阅读 · 4 评论 -
爬虫-scrapy框架,pymongo储存,scrapy-redis分布式的使用
抓取豆瓣电影,scrapy的学习使用,pymongo储存,scrapy-redis分布式的使用1.spider文件的编写import scrapyfrom test1.items import Test1Itemfrom scrapy_redis.spiders import RedisCrawlSpiderclass QiushibaikeSpider(RedisCrawlSpi...原创 2018-08-26 15:53:52 · 470 阅读 · 0 评论 -
爬虫-携程酒店信息抓取降妖除魔(下)
#这骗主要是讲抓取酒店页面list的经历,也有很多坑,反爬,价格数据放在其他位置多分析才能事半功倍1.通过分析酒店相关信息list也是ajax加载,存放在json数据中,价格也在同一个json中但是放在另外的位置通过酒店id对应2.下来就是主要提取自己需要的信息,然后存储就好,这边存放csv和mysql数据库,代码中有两个注释知识点着重留意下,然后就是保存到mysql是通过pymysql...原创 2018-10-10 22:46:19 · 4144 阅读 · 14 评论 -
Scrapy+Seleium+headless无头浏览器爬取天眼查数据
#难点:1.数据接口很难找到,反爬措施很强,所以用的seleium模拟抓取2.页面数据字体进行了异常,需要进行反向破解###本文用的是天眼查移动端 m.tianyancha.com 进行抓取,输入公司名可以抓取前面5条具体信息展示###还有网站字体异常反爬每天都会更新,所以需要后面使用的需要排除去除,用fontcreator软件###代码抓取也有些注意点,用的google...原创 2018-10-20 16:11:32 · 3396 阅读 · 3 评论 -
微信图灵机器人自动回复和微信加淘宝淘客推广
#两块内容1、微信图灵机器人自动回复首先去图灵机器人注册,记住秘钥要关上,不然会出现4001错误import itchatimport requestsimport jsondef auto(texts): url="http://openapi.tuling123.com/openapi/api/v2" datas={ "reqType":"0&q原创 2018-12-01 13:25:32 · 5692 阅读 · 2 评论 -
滑动验证码破解(selenium+PIL)-哔哩哔哩bilibili
#本文思路通过selenium模拟浏览器空值浏览器进行验证码的操作,利用PIL图片处理工具进行对图片处理,识别到图片要滑动过去的阴影距离小知识点:1、ActionChains方法是捕捉控制鼠标进行操作,click_and_hold 点击不放,move_by_offset 按坐标移动,release 鼠标释放2、距离算出是通过比较两张图片的色值rgb,阴影部分的差值大概在60以上得出(有小...原创 2018-11-27 18:11:34 · 3009 阅读 · 0 评论 -
微博实时话题和搜索微博实时抓取
#两部分需求,一是搜索词实时微博情况,二是相关话题实时的微博情况(通过移动端获取api接口分析得到)1.相关话题实时的微博情况规律:要先找到话题list然后再跳转到各话题的实时微博去遍历(注意的是话题list的链接不是实时链接需要转化成实时链接后再遍历,这个需要找规律:就是3D前后一个多了个6,一个少了个0)效果:代码:import requestsimport jsonimp...原创 2018-11-30 08:57:39 · 4985 阅读 · 0 评论 -
微博社交内容信息爬取(selenium和equests请求接口两种方法)
总体目标:抓取微博内容信息;给一个入口,抓分布抓取关注list,然后给到具体链接去爬取具体个人的微博信息#我这现在有两种方式,selenium模拟登陆和下拉,二是分析接口获取具体微博信息,这边暂时没有完全放开安装list关注再分别一次抓取每个关注的微博,后面会更新一,requests抓取1.分析具体微博个人页面,首先你需要切换到全部微博,然后下拉分析,后面内容是通过ajax加载,在data...原创 2018-11-23 08:24:40 · 2201 阅读 · 0 评论 -
天眼查pc端公司信息抓取
#主要是异常处理和反爬处理1.异常处理就是有的公司不是公开的数据没有所以需要判断,不然程序会出错2.反爬页面浏览多了会需要登录,这边用cookie处理import requestsfrom lxml import etreegs=[]headers={ "Accept": "text/html,application/xhtml+xml,application/xml;...原创 2018-11-14 19:07:14 · 3203 阅读 · 0 评论 -
爬虫-京东商城商品搜索页爬取
难点:1,京东首次搜索只展示30条数据,这个可以直接在源代码取到,但是也要注意不同页面抓取规则可能不一样(页面结构有变化需要判断)2,继续下拉可以在ajax获取到另外30条数据,但是这个requests提交需要各种参数,很麻烦,我这暂时没有找到自动填写的方法,只能根据搜索需求人工改写下解析页面信息有好多坑,比如有的价格不全,同一个页面需要解析的规则就不一样ajax参数,he...原创 2018-11-06 20:08:56 · 1473 阅读 · 1 评论 -
天眼查新方式信息爬取
#本文通过新的方式爬取突破由于公司列表页出来公司名有反爬其,他信息没有可以取巧采取注册时间注册资本信息访问过多过快也会封,测试可以通过随机UA突破另外公司具体信息详情页可能不同公司展示xpath位置不一样,所以用re另外经营范围下载回来出现&#x开头的乱码,#&#xxx 的格式其实是unicode,用HTMLParser库解析原创 2018-10-21 13:18:45 · 21984 阅读 · 3 评论 -
爬虫学习---入门
1.xpath解析的使用抓取豆瓣图书案例 #豆瓣读书抓取青春分类数据#coding=utf-8import requestsfrom lxml import etreeimport timewith open('F:\pythondoc\douban.txt','w',encoding='utf-8') as f: for m in range(25): ...原创 2018-08-26 15:34:08 · 228 阅读 · 0 评论