![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 71
花镜渊
这个作者很懒,什么都没留下…
展开
-
210406课 多线程与多进程
210406课 多线程/多进程 编程如何实现并发(并行)编程?并行:真正的同时进行,需多核CPU支持并发:通过快速的切换制造出并行的效果线程:操作系统分配CPU基本单位,最小的执行单元进程:操作系统分配内存的基本单位,是程序在一组数据上的活动通常我们启动一个程序,就启动了一个(或多个)进程,一个进程中又可以包含多个线程单线程:只有主线程,只有唯一的一个执行线索# 例子:单线程爬取360的美女图片import timeimport requestsfrom seleni原创 2021-04-06 19:18:08 · 120 阅读 · 0 评论 -
210305课 1st爬虫重点总结
210305课 1st爬虫重点总结1, requests库~ get / post / …- url- params —> 查询参数(URL参数) —> 跟在URL问号后面的参数- data —> post请求发给服务器的数据 —> {‘参数名’: ‘参数值’}- headers —> HTTP请求头 —> User-Agent / Cookie / Accept- proxies —> 设置代理服务器 —> HTTP / SOCKS- fil原创 2021-03-05 17:57:09 · 125 阅读 · 0 评论 -
210304课 爬取动态页面
210304课 爬取动态页面爬取网页上的动态内容即网页上可以看到,一般却不显示数据代码的内容又称瀑布式加载,触底加载1, Ajax > 为页面提供动态生成内容的一种技术> 浏览器可以在不中断用户体验的前提下,向服务器发起异步请求> 在浏览器后台发生,用户感知不到> 服务器在收到浏览器发出的异步请求后会以Json格式返回数据> 浏览器获得Json数据后,会使用javascript对页面进行局部渲染,生成动态内容2,抓取动态内容方法:javascript逆原创 2021-03-04 18:10:09 · 149 阅读 · 1 评论 -
210303课 解决爬虫时IP封禁问题
210303课 解决爬虫时IP封禁问题爬取豆瓣电影Top250的详情信息并写入Excel文件1,抓取页面 >拿HTML源代码 requestsresponse.textresponse.content.decode(’…’)2,解析页面 >正则 用re模块CSS选择器 用BeautifulSoupXPath 用lxml3,保存数据 >持久化处理 >数据分析(从数据中找出有用的信息)CSV >csv系统自带原生原创 2021-03-03 21:03:07 · 1156 阅读 · 2 评论 -
210301初识爬虫
210301课 初识爬虫爬虫:开公开页面的信息并迅速提取出来步骤:1,获取网页源代码:HTML数据放在标签里面打开目标网页>鼠标右键查看网页源代码(ctrl+u)2,解析HTML页面方法:正则表达式XpathCSS选择器3,数据持久化1)可以存储的位置:文本文件(CVS)Excel数据库爬虫程序是法律灰色地带如果被目标网站举证你有破坏别人动产行为,会产生法律问题2) robots.txt 准入标识符:Disallow不许爬的内容,all原创 2021-03-01 19:23:00 · 246 阅读 · 1 评论