python爬虫_瓜瓜的小宝藏的博客-CSDN博客

python爬虫

文章平均质量分 55

以实战为依据，来学习吧

文章数：6 文章阅读量：2947 文章收藏量：3

作者: 瓜瓜的小宝藏

这个作者很懒，什么都没留下…

展开

python3爬虫笔记之Ajax

利用javascrip保证页面不被刷新，链接不改变的情况下与服务器交换数据并更新部分网页内容的技术。比如下滑查看更多就是ajax加载过程。新建的一个XMLHttpRequests对象xmlhttp，然后调用onreadystatechange属性设置监听，最后调用open和send方法向某个链接发送请求。这个这是请求的原理，还有解析内容和渲染，感兴趣可以自己去了解ajax请求类型type是xhr，这就意味是ajax请求。requests headers里面有个X-Requested-With就标记

原创 2022-06-10 13:44:05 · 192 阅读 · 0 评论
python3爬虫笔记之BeautifulSoup

是http或者xml的解析库，可以很方便的从网页上提取数据，在解析时时依赖解析器的，还支持第三方解析器比如lxml。相关用法：准备工作需要安装两个库基本使用节点选择器提取信息获取名称#获取节点名称获取属性一个节点可能有多个属性，例如id和class等，选择这个节点之后用attrs获取其所有属性获取内容嵌套选择关联选择用的比较少，不做解释子节点和子孙节点兄弟节点提取信息方法选择器find_all查询符合条件的元素，api如下find_all(name，at

原创 2022-06-09 17:31:38 · 478 阅读 · 0 评论
python3爬虫笔记之requests

1.1安装2实例引入其他请求3 get请求最简单的get请求如果附加额外的信息一般怎么添加呢把url参数以字典的形式传给get方法的params参数网页返回是str类型，json格式的，得到返回数据直接调用json方法，如果不是json格式的化会报异常现在就尝试抓取网页看一下吧用最基础的正则，关于正则使用稍后介绍抓取二进制数据自行查看打印结果，r.content前面带一个b，代表bytes类型的数据。添加请求头4post请求5响应有个内置状态码查询对象如果是200则表示响

原创 2022-06-08 22:26:05 · 357 阅读 · 0 评论
python3爬虫笔记之爬虫基础

url格式规范：sheme：协议。通常有http、https、ftp等username、password：用户名和密码hostname：主机地址port：端口path：路径。网络资源在服务器中的指定位置paramenters：参数，访问资源的附加信息query：查询，如果多个查询用&隔开fragment：片段。资源内部的书签http中文名为超文本传输协议，https是http的安全版，在http下加了层sslssl的作用是建立安全通道，确保数据的安全性，确保数据的真实性http请求的过程：

原创 2022-06-08 16:46:46 · 186 阅读 · 0 评论
pandas爬取表格

系列文章目录文章目录系列文章目录下载写入excelimport pandas as pdurl="http://qhggzyjy.gov.cn/haib/jyxx/001002/001002002/20220512/f828d85d-f0b0-42f5-b77f-e4d915d313c0.html"tables = pd.read_html(url)print("table数量:",len(tables))#读取第一个表tables[0]下载写入excelimport pandas a

原创 2022-05-13 17:50:09 · 499 阅读 · 0 评论
零基础python爬虫基础之王者荣耀图片下载(超级简单)

requests与PyQueryrequests请求获取数据PyQueryPyQuery是一个类似于jQuery的解析网页工具，使用lxml操作xml和html文档，它的语法和jQuery很像。和XPATH，Beautiful Soup比起来，PyQuery更加灵活方式一：通过网址初始化PyQyery对象from pyquery import PyQuery as pqs = '<html><title>PyQuery用法总结<title></html

原创 2021-11-17 22:24:55 · 1238 阅读 · 0 评论

python爬虫

作者: 瓜瓜的小宝藏

python3爬虫笔记之Ajax

python3爬虫笔记之BeautifulSoup

python3爬虫笔记之requests

python3爬虫笔记之爬虫基础

pandas爬取表格

零基础python爬虫基础之王者荣耀图片下载(超级简单)