爬虫
文章平均质量分 55
闪闪发亮的小星星
这个作者很懒,什么都没留下…
展开
-
爬虫-天气数据
目标网站:https://tianqi.2345.com/china.htm。原创 2023-05-16 19:34:41 · 460 阅读 · 0 评论 -
爬虫01-爬虫基本原理讲解
请求网站并提取数据的自动化程序.* 请求方式的类别HTTP/1.01. GET:偏向于获取的方式大部分都是给后端一些参数,用来获取些列数据2. POST:偏向于给服务器一些数据大部分都是登录,给服务器一些信息,你给我一个简单的结果3. PUT:偏向于给服务器一些信息,但是是添加使用大部分做注册, 给服务器一些信息,你把这个信息存起来4. HEAD:用来获取服务器头信息HTTP/1.15. DELETE:偏向于删除大部分是删除评论,删除微博6. CONNECT:管道连接改变代理连接使原创 2022-06-22 20:59:56 · 725 阅读 · 0 评论 -
检查网页源码与 网页图片对应
检查,点击最右边带箭头的原创 2021-04-07 16:45:15 · 266 阅读 · 0 评论 -
分析Ajax爬取今日头条街拍美图
ajax: 某些王爷通过鼠标下滑能加载出更多的内容首先通过分析html 是否有内容是由ajax加载(如果有,切换到XHR过滤选项卡)import requestsfrom urllib.parse import urlencodeimport jsondef get_page(offset): params={ 'app_name':'web_search', 'offset':offset, 'format':'json',原创 2021-04-01 18:05:10 · 224 阅读 · 0 评论 -
数据存储
数据存储主要介绍文本存储:txt、Json、CSV;关系型数据库存储和非关系型数据存储文件存储文件存储: txt、Json、CSV基本实例目标: 保存知乎上 “发现”页的“热门话题”部分。首先用 requests 将网页源码获取下来,然后使用 lxml 解析库解析,将提取下来的标题保存到本地:import requestsfrom pyquery import PyQuery as pqimport jsonfrom lxml import etreeurl="https://ww原创 2021-03-31 14:17:34 · 171 阅读 · 0 评论