![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 59
朝游碧海暮苍梧
这个作者很懒,什么都没留下…
展开
-
06--有道翻译--爬虫解析
1、网址https://fanyi.youdao.com/2、分析网站这里我们能进行一个数据的翻译,代码如下,注意https://fanyi.youdao.com/translate_osmartresult=dict&smartresult=rule当中的_o要去除掉import requestsurl = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"headers = {原创 2022-03-29 20:59:55 · 491 阅读 · 0 评论 -
5--selenium模块
环境搭建:下载浏览器驱动https://registry.npmmirror.com/binary.html?path=chromedriver/将下载好的文件解压后放到相应的文件中,例如将解压后的文件放入到相应的位置from selenium.webdriver import Chromeweb = Chrome() #面向谷歌浏览器建立一个对象web.get(“http://www.baidu.com”)对招聘网站进行职位搜索操作网站: https://www.lag.原创 2022-02-19 20:30:40 · 772 阅读 · 0 评论 -
4--多线程、多进程、线程池和进程池、协程--爬虫
多线程和多进程的格式多线程#target=func 不加括号是对函数的调用;target=func()加括号是对结果的调用 t = Thread(target=func) # 创建一个多线程对象 t.start() #多线程为可以开始工作状态 方式二: t = MyThread() #定义一个对象 t.start() #开启线程 class MyThread(Thread): #子类继承了Thread def run(self): #原创 2022-02-19 20:24:06 · 474 阅读 · 0 评论 -
3--简单的几种反爬方式
1、user-Agent: 请求载体的身份标识2、Referer: 防盗链(这次的请求是从哪个页面来的?)3、Cookie: 本地字符串数据信息(用户登录信息,反爬的token)处理cookie# session可以认为是一连串的请求,在这个过程中cookie不会丢# 会话session = requests.session()17k小说网模拟用户登录数据没有在源代码中,需要js加载爬取网站 https://user.17k.com/www/bookshelf/登录.原创 2022-02-19 20:12:46 · 544 阅读 · 0 评论 -
2--关于代码中数据的提取三种方式
正则re模块量词使用正则re爬取豆瓣排行榜数据在源代码中r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>' #获取电影名r'.*?<p class="">.*?<br>(?P<year>.*?) ' #获取电影上映年份代原创 2022-02-19 20:03:54 · 2535 阅读 · 0 评论 -
1--request模块
百度翻译import requests# 爬取网站:https://fanyi.baidu.comurl = "https://fanyi.baidu.com/sug"s = input("请输入要翻译的英文单词")dat = { "kw": s}# 发送post请求,发送的数据必须放在字典中,通过data参数进行传递resp = requests.post(url, data=dat)print(resp.json())百度翻译在搜索时,sug里面的kw会发生变化,我原创 2022-02-19 19:49:41 · 348 阅读 · 0 评论