爬虫
mahuatengmmp
本账号已不再使用,所以发私信和评论是没用的
展开
-
反反爬虫 大众点评-图片文字破解 2020年6月6日更新
界面元素审查不得不说,大众点评的反爬虫措施还算可以,但是为了网页加载的运行效率,反爬措施无法做得非常深入,给反反爬虫给了非常大的机会。随便找一个大众点评的评论来进行分析,发现评论的是子字和图片(svgmtsi标签)混合起来的,而且最骚的是,你每次刷新,它都会重新将某些文字换成图片。第一次刷新第二次刷新行不通的解决方案Q:所以,难道解决方案是通过不停的刷新来获取文字最后进行拼接吗(并不是:( )A:一直刷新显得非常玄学,而且程序还不好判断文字是否补全Q:用OCR把图片一个个转换成文原创 2020-06-02 21:13:33 · 1837 阅读 · 3 评论 -
爬虫笔记5 向动态HTML迈进,selenium入门,获取响应后的element代码以及网页COOKIE
1.加载网页代码from selenium import webdriver使用游览器(支撑绝大多数游览器)driver = webdriver.PhantomJS()游览器进行游览driver.get(“http://www.baidu.com”)由于PhantomJS无界面,可以使用下面代码保存界面driver.save_screenshot(“百度.png”)2.定位和操作支持所有element的搜寻比如id(id用的最多)(send_keys是输入,可以用来输入账户密码)d原创 2020-05-29 16:32:21 · 511 阅读 · 0 评论 -
爬虫笔记4 程序多线程threading与Queue结合使用,Queue用法详细解读
1.Queue的用法通常配合threading使用,创建一个队列,多个线程可以从队列中提取任务,返回输入任务那么具体是怎么配送threading模块使用的呢?举个例子,比如你要下载一个文件,可是你发现对方给你限制了你的下载速度,每个文件只准10kb的下载,这时候你可以将下载文件所有的请求丢到一个队列里面 Queue.put()(假设1000个请求),这个队列就是Queue,然后你设置100个线程,每个线程都可以直接通过Queue.get()来拿到属于自己的任务,最后使用Queue.task_done(原创 2020-05-11 19:56:04 · 658 阅读 · 1 评论 -
爬虫笔记3 XPATH LXML寻找XML,HTML
掌握re库(正则表达式)的用法re.findall("a(.*?)b",”str“)能够返回括号中的内容,括号前后的内容起到定位和过滤的效果原始字符串r,使用r可以忽视反斜杠带来的转义的效果.默认匹配不到\n\s能够匹配空白字符,不仅仅包含空格,还有\t \r \n万能的.*?用法...原创 2020-05-09 18:58:12 · 177 阅读 · 1 评论 -
爬虫练习--豆瓣英美剧爬虫
用chorme(切换为安卓手机)到达豆瓣英美剧页面搜索item得到json文件位置和requests请求url爬虫中设置自己的header(要有referer,不然爬不到)并且删除多余的urlself.url_temp = "https://m.douban.com/rexxar/api/v2/subject_collection/tv_american/items?os=android...原创 2020-04-30 14:17:11 · 447 阅读 · 0 评论 -
爬虫笔记2 json操作
json字符串操作import json#json.loads把json字符串转化为python类型ret1 = json.loads(html_str)#json.dumps把python类型转化为json字符串,ensure_ascii=False取消ascii格式转换,indent=4自动换行json.dumps(ret1,ensure_ascii=False,indent=4)...原创 2020-04-30 14:10:13 · 159 阅读 · 0 评论 -
爬虫笔记1 request基础
resquestsimport resquestsresponse = requests.get(url,headers,)原创 2020-04-29 17:58:46 · 119 阅读 · 0 评论