![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
ayixixixi
这个作者很懒,什么都没留下…
展开
-
《爬虫》爬取谷歌网页“人脸”图片
爬取谷歌网页搜索的关于“人脸”的图片目标:谷歌搜索“人脸” 网页搜索出现的图片selenium:模拟浏览器的工具。(还需要下载ChromeDriver 放到python的scripts安装目录中)每次下滑500 单位,然后将当前窗口的所有图片的url抓取出来,使用selenium将tag_name为img的抓取出来即可。(另外也可以使用html,用BeautifulSoup解析网页,得到img的url)有些图片会抓取不了,因为他们对应的url并不是图片,所以需要把这些url去掉;另外还有地址特别长的转载 2020-12-28 21:28:56 · 825 阅读 · 0 评论 -
《爬虫》将爬取到的人脸图片进行筛选,将包含人脸的图片另存
筛选出包含人脸的图片import osimport cv2import numpy as np判断图片中是否包含人脸def detect(file):# 将图片地址传进来 # haarcascade_frontalface_default.xml: 人脸识别中的默认分类器,主要用于人脸图片中的人脸轮廓的识别。 face_cascade = cv2.CascadeClassifier(r'C:\ProgramData\Anaconda3\pkgs\opencv-master\da原创 2020-12-28 21:02:09 · 941 阅读 · 0 评论 -
针对某关键词爬取相关数据
针对某关键词爬取相关数据目标数据:2020.3.20微博用户发布的包含关键词“疫情”的微博文本数据。针对上述目标数据,涉及到微博的https://weibo.com和https://weibo.cn站点,其中weibo.com的时间粒度是一个小时,weibo.cn的时间粒度是一天,为了抓取到尽可能多的关键词搜索结果,需要使用weibo.com的高级搜索功能来实现按照关键字和时间进行爬取。考虑到该站点查看数据的最小粒度是一个小时,一个小时内可以查看到的数据是50页,每页最多为20条微博数据,因此每个小时得原创 2020-12-25 15:03:09 · 2796 阅读 · 2 评论