网络爬虫
文章平均质量分 95
筝余弦
这个作者很懒,什么都没留下…
展开
-
网络爬虫-微信公众号-近期文章-MySQL数据库
搜狗微信客户端爬取的网址都是临时接口,为了网址接口长久性,我采用了微信链接转永久接口 import reimport jsonimport timeimport pymysqlimport requestsfrom bs4 import BeautifulSoupfrom ShowapiRequest import ShowapiRequestconfig = { ...原创 2018-07-23 20:37:34 · 1137 阅读 · 0 评论 -
网络爬虫-阿里淘宝-店铺基本信息-本地文件
1.采用Chrome无头浏览模式,后台自动运行2.函数结构化,易于扩展改变3.异常重启,防止崩溃已经封装完毕import refrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverW...原创 2018-08-16 16:41:10 · 4072 阅读 · 1 评论 -
网络爬虫-QQ空间-数据前奏曲-自动登录
网上有许多代码,但很多效果都很差,我自己学着学着摸索了一个,特别要提醒的是,登录经常会失败,这是因为QQ空间反爬虫功能。根据一个大牛解答,Chrome63.0版本发布了重大更新,所以想要批量登陆最好选取Chrome63.0版本的。import timefrom selenium import webdriver# 限制JS与图片加载option = webdriver.ChromeO...原创 2018-08-20 19:03:15 · 234 阅读 · 0 评论 -
网络爬虫-知乎Live-Live评论与观众-MongoDB数据库
1.解析了AjAx动态加载地址2.键值型MongoDB数据库代码如下:首先先获取zhihu-live中的各个Live链接地址import json, timeimport randomimport requestsfrom pymongo import MongoClientclient = MongoClient('localhost', 27017)db = cl...原创 2018-08-20 20:40:53 · 900 阅读 · 2 评论 -
网络爬虫-百度地图-全国地址信息-MySQL数据库
本文仅供学习参考1.采用转文件转MySQL数据库形式存储内容2.爬取速度不宜过快,太快容易失败代码如下:先爬取并将其全部存储至文件中import json, timeimport randomimport requestssix_cities_list = ['北京市', '上海市', '重庆市', '天津市', '香港特别行政区', '澳门特别行政区']prov...原创 2018-08-20 20:46:01 · 4642 阅读 · 2 评论 -
终极项目-测试-多线程、多进程、多协程代码、Redis数据库分布式
学习Scrapy框架前要先了解这些各个提高代码运行方式的内在关系逻辑三种方式同时利用5个(线,进,协)来测试请求50个网页,比较速度首先上多线程:采用的是队列+多线程,这也是分布式爬虫底架常见的使用方法本此多线程采用的是threading框架,也有如_thread等其它框架import timeimport requestsimport threadingimport ...原创 2018-08-20 21:06:46 · 550 阅读 · 0 评论 -
网络爬虫-大众点评-获取美食商铺评论标签与推荐美食-本地Excel表格
1.由于大众点评的反爬虫措施(如Cookie就是必须放入请求头Header中)太过严禁,博主本人在爬取测试过程中IP被封,更换了IP才得以继续测试,并且后来博主在爬取过程中设置了小型防崩溃措施。2.爬取速度不宜太快,爬取次数同一个IP下有限制3.网上好多爬取方法已经失效或者是不怎么关用,博主花下大量时间才得以爬取首先先抓取各个美食商铺的名称、链接、星级、价格、地址等基本信息,并导...原创 2018-08-20 21:21:16 · 3071 阅读 · 3 评论