爬虫
文章平均质量分 63
ZTLJQ
沉浸钻研python领域内容
展开
-
多进程爬虫实战-摩托车网
代码中先构造requests请求,然后通过上面我所说的获取到尾页的数据,text = xl(parse_xpath(res,"//a[contains(text(),'尾页')]/@href")),接下来就是每一个进程处理一页的数据,这个和线程不同,进程和线程的区别你可以理解为,进程相当于是按页分,线程是页中每一条数据来分。那么这个框架其实就一目了然了,请求区域,解析区域,总体业务,存储,入口函数都有,大家不要觉得框架是无用的,其实等同学们出来工作后,每天都是在用框架进行工作和学习,所以提早接触是好事。原创 2023-06-24 12:10:12 · 4900 阅读 · 5 评论 -
爬虫常见错误以及难点(一)
一般来说出现这个错误content=req.content.decode('utf-8')在这个里面加上参数content=req.content.decode('utf-8','ignore')也就是忽略报错。遇到utf-8或gbk解码问题实在不知道是什么的时候用html=url.text就是猜是什么解码只要返回页面就可以因为我们需要的是a标签的值两种方法都可以用一个不行用另外一个。......原创 2022-07-23 18:31:04 · 1195 阅读 · 1 评论 -
爬虫的快速入门基础 (六)requests库入门 第四章
POST请求当你对一个网站发起请求的时候 查看这个网站是POST请求 还是GET请求 (如何查看上一章已经讲过了 我这里就不再重复)接下来给大家讲解POST请求直接上案例:案例 爬虫实现百度翻译首先打开百度翻译 然后打开F12 工具(记住这个时候不要在翻译内容中输入内容)随后 在翻译内容中输入内容 F12工具的网络选项中 会出现sug这个文件 如图:我已经在图中圈出 你需要注意的几个地方 首先需要点击网络这个选项 然后找到sug 可以发现请求的url后面是带 /su...原创 2022-04-20 20:11:25 · 976 阅读 · 2 评论 -
爬虫的快速入门基础 (五)requests库入门 第三章
今天讲一个小实战让大家试试 有一些新的知识 如果不理解可以多看几遍 自己尝试一下实战案例(豆瓣网):首先我们需要打开豆瓣网随便点击一部电影进入 爬取整个网页的数据import requests# 复制你要爬取的电影的urlurl = 'https://movie.douban.com/subject/35372415/?tag=%E7%83%AD%E9%97%A8&from=gaia'header={ 'User-Agent':'Mozilla/5.0 (Wi原创 2022-04-17 20:10:44 · 3660 阅读 · 2 评论 -
爬虫的快速入门基础 (四)requests库入门 第二章
(1)搜狗搜索人物实战import requestsurl = 'https://www.sogou.com/web?query=李荣浩'# 首先我们需要观察 在搜狗 输入李荣浩 会发现他的Url 有上面这一长串的字符# https://www.sogou.com/web?query=李荣浩&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&原创 2022-04-14 16:15:29 · 772 阅读 · 2 评论 -
爬虫的快速入门基础 (三)爬虫三大库知识以及requests库入门 第一章
一、爬虫三大库简单介绍 (后面会一个一个详细介绍使用方法)import requests 这个就是导入 requests库需要安装第三方库 就使用这个命令 pip install 第三方库的名称比如 安装requests库 就是 pipinstall requests需要打开cmd比如:from bs4 import BeautifulSoup 这个是导入 BeautifulSoup库的写法爬虫三大库 Requests Lxml BeautifulSoup二、request.原创 2022-04-12 20:06:43 · 619 阅读 · 2 评论 -
爬虫的快速入门基础(二)常用的条件语句
一、if条件语句 语法if 条件语句语法: if 条件 :执行的语句elif 条件 :执行的语句else :执行的语句举例 一般案例看了就理解的比较快:def test(): a = input('设置正确的数字:') if a=='123': print('数字正确') else: print('数字错误') test()test()# 这个test() 表示调用 test函数的意思# == 这个符号 表示 判断 a是否等于123 不用=是因为 使用原创 2022-04-11 20:37:17 · 1024 阅读 · 4 评论 -
爬虫的快速入门基础 (一)需要知道的基础python知识
零基础快速入门爬虫(一)开始赚钱的第一步原创 2022-04-11 16:55:02 · 402 阅读 · 1 评论