瓜瓜的小宝藏
这个作者很懒,什么都没留下…
展开
-
python3爬虫笔记之Ajax
利用javascrip保证页面不被刷新,链接不改变的情况下与服务器交换数据并更新部分网页内容的技术。比如下滑查看更多就是ajax加载过程。新建的一个XMLHttpRequests对象xmlhttp,然后调用onreadystatechange属性设置监听,最后调用open和send方法向某个链接发送请求。这个这是请求的原理,还有解析内容和渲染,感兴趣可以自己去了解ajax请求类型type是xhr,这就意味是ajax请求。requests headers里面有个X-Requested-With就标记原创 2022-06-10 13:44:05 · 192 阅读 · 0 评论 -
python3爬虫笔记之BeautifulSoup
是http或者xml的解析库,可以很方便的从网页上提取数据,在解析时时依赖解析器的,还支持第三方解析器比如lxml。相关用法:准备工作需要安装两个库基本使用节点选择器提取信息获取名称#获取节点名称获取属性一个节点可能有多个属性,例如id和class等,选择这个节点之后用attrs获取其所有属性获取内容嵌套选择关联选择用的比较少,不做解释子节点和子孙节点兄弟节点提取信息方法选择器find_all查询符合条件的元素,api如下find_all(name,at原创 2022-06-09 17:31:38 · 478 阅读 · 0 评论 -
python3爬虫笔记之requests
1.1安装2实例引入其他请求3 get请求最简单的get请求如果附加额外的信息一般怎么添加呢把url参数以字典的形式传给get方法的params参数网页返回是str类型,json格式的,得到返回数据直接调用json方法,如果不是json格式的化会报异常现在就尝试抓取网页看一下吧用最基础的正则,关于正则使用稍后介绍抓取二进制数据自行查看打印结果,r.content前面带一个b,代表bytes类型的数据。添加请求头4post请求5响应有个内置状态码查询对象如果是200则表示响原创 2022-06-08 22:26:05 · 357 阅读 · 0 评论 -
python3爬虫笔记之爬虫基础
url格式规范:sheme:协议。通常有http、https、ftp等username、password:用户名和密码hostname:主机地址port:端口path:路径。网络资源在服务器中的指定位置paramenters:参数,访问资源的附加信息query:查询,如果多个查询用&隔开fragment:片段。资源内部的书签http中文名为超文本传输协议,https是http的安全版,在http下加了层sslssl的作用是建立安全通道,确保数据的安全性,确保数据的真实性http请求的过程:原创 2022-06-08 16:46:46 · 186 阅读 · 0 评论 -
pandas爬取表格
系列文章目录文章目录系列文章目录下载写入excelimport pandas as pdurl="http://qhggzyjy.gov.cn/haib/jyxx/001002/001002002/20220512/f828d85d-f0b0-42f5-b77f-e4d915d313c0.html"tables = pd.read_html(url)print("table数量:",len(tables))#读取第一个表tables[0]下载写入excelimport pandas a原创 2022-05-13 17:50:09 · 499 阅读 · 0 评论 -
零基础python爬虫基础之王者荣耀图片下载(超级简单)
requests与PyQueryrequests请求获取数据PyQueryPyQuery是一个类似于jQuery的解析网页工具,使用lxml操作xml和html文档,它的语法和jQuery很像。和XPATH,Beautiful Soup比起来,PyQuery更加灵活方式一:通过网址初始化PyQyery对象from pyquery import PyQuery as pqs = '<html><title>PyQuery用法总结<title></html原创 2021-11-17 22:24:55 · 1238 阅读 · 0 评论