爬虫
bibibabibobi k
高,还没富,但帅
展开
-
使用fiddler4和夜神模拟器进行app抓包
使用fiddler4和夜神模拟器进行app抓包1. fiddler进行配置使其可以爬取https协议中的内容,允许手机连接,使用默认端口号。端口号可以自行更改,千万不要和其他端口有冲突。2. 配置夜神模拟器打开WLAN设置长按无线出现配置信息,点击修改网络,勾选高级设置,代理服务器名称写成本机IP,端口号是上面设置的端口号默认8888。使用模拟器的浏览器进入http://设置的代理IP:8888下载证书,下载完成后安装证书。(安装证书后系统会提醒你设置模拟器密码),可以从设置-安全选项中安原创 2020-08-26 11:10:46 · 1729 阅读 · 0 评论 -
selenium执行火狐浏览器出错
执行火狐浏览器失败错误:selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH.解决方法:下载geckodriver放在path目录下就可以解决原创 2017-11-28 14:12:00 · 643 阅读 · 0 评论 -
爬虫 python多线程
目标:使用多线程和日志爬取网页的所有链接的网址并且保存到本地使用的库:import urllib2import threading #多线程import timefrom bs4 import BeautifulSoupimport logging #日志多线程代码:class myThread(threading.Thread): def __init__(self,...原创 2018-03-07 19:32:17 · 241 阅读 · 0 评论 -
post请求爬取艺龙酒店的评论
爬取酒店的评论使用的库import urllib2import requestsimport reimport timeimport json通过抓包发现酒店的id在asyncsearch里网址:http://www.elong.com/ajax/list/asyncsearch是post的请求设置post参数和head的值hea原创 2017-12-17 19:19:39 · 1724 阅读 · 0 评论 -
爬糗事百科的段子(爬多页)
爬糗事百科网址:http://www.qiushibaike.com/hot/首先设置headers: user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_agent }用headers获取网页源代码: re原创 2017-12-10 20:39:25 · 316 阅读 · 0 评论 -
爬虫实践练习(爬小说)
爬取多本小说要爬取的网页:http://www.tianyashuku.com/kehuan/用到的库: urllib2,re,bs4获取网页源代码: def getPage(self) request=urllib2.Request(url,headers=headers) response=urllib2.urlo原创 2017-12-10 20:23:47 · 837 阅读 · 0 评论 -
selenium模拟浏览器爬人民网微博
selenium的使用:利用浏览器打开网页:driver = webdriver.PhantomJS()driver.get('http://t.people.com.cn/indexV3.action')selenium可以模拟浏览器中的任何操作可以模拟登陆网页:elem_user = driver.find_element_by_xpath('//*[@id原创 2017-12-03 16:17:35 · 284 阅读 · 0 评论 -
scrapy的保存数据
修改settings:FEED_URI(必须的)存储的文件路径FEED_FORMAT 输出feed的序列化格式。有以下四种格式JSONJSON linesCSVXMLFEED_STORE_EMPTYDefault: False是否输出空feed(没有item的feed)。FEED_STORAGES原创 2017-11-16 19:52:47 · 420 阅读 · 0 评论 -
post获取网页post用法
用post命令爬取import urllib2import requests data={'listRequest.pageIndex':k, 'listRequest.areaID':'', }r = requests.post(url,data=data)post的参数必须在url外面用了reques库原创 2017-11-05 16:55:02 · 6934 阅读 · 0 评论 -
使用python爬取京东评论(json)
任务:爬取京东某手机的评论这次爬取的内容是动态的所以不能直接爬源代码中的内容打开网页按下F12在Network里找到productPageComments文件 打开这个文件 这个文件是由json保存的(这里面就是要爬取的内容) 先用读取网页url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_原创 2017-10-25 20:37:53 · 13185 阅读 · 6 评论 -
python 爬多页贴吧的图片
x是全局变量原创 2017-09-17 21:03:41 · 298 阅读 · 0 评论 -
bs4的使用
bs4的使用要求:要爬取的网址:http://manhua.dmzj.com/update_1.shtml需要Beautiful Soup库需要urllib2库使用Beautiful soupfrom bs4 import BeautifulSoup爬取网页的内容newurl='http://manhua.dmzj.com/update_%d.shtml'原创 2017-10-21 11:19:29 · 905 阅读 · 0 评论 -
python的sql操作
需要安装mysql连接数据库conn = MySQLdb.connect( host='127.0.0.1', port=3306, user='root', passwd='1.2.336', db='python',原创 2017-10-20 19:45:57 · 911 阅读 · 2 评论 -
安装Scrapy的报错问题
安装完成之后cmd运行scrapy报错:原因:TWIST 版本问题解决方法:pip install twisted==13.1.0原创 2017-11-07 21:36:36 · 323 阅读 · 0 评论