Python之数据爬取
文章平均质量分 94
llh_1178
这个作者很懒,什么都没留下…
展开
-
Mac M1安装scrapy和undetected-chromedriver踩过的坑
文章目录本机环境一、安装Scrapy二、安装undetected-chromedriver总结本机环境我的本地环境是:系统:MacBook Pro(M1)anaconda:miniforge3python:3.9注:网上很多人建议把将python版本升级为3.10.4,然后重新安装scrapy,但是,我找到的方法是不需要升级python等繁琐操作的。提示:以下是本篇文章正文内容,下面案例可供参考一、安装Scrapy直接使用pip安装Scrapy:pip install -i http原创 2022-05-08 22:57:51 · 4543 阅读 · 2 评论 -
使用selenium爬取百度图片
在做机器学习、深度学习模型训练时,最重要的事情之一就是寻找足量的数据,但是,往往我们手边都没有现成的数据,需要在网上寻找下载,这个时候就可能会用到爬虫。随着网页升级、反爬机制,使得爬虫也要不断变化。因此,目前对百度图片的爬取也不如之前那么简单了,需要增加自动下拉条的能力,不然,只能爬取20张。话不多说,直接上代码吧!import osimport reimport timeimport j...原创 2020-03-06 11:56:16 · 2035 阅读 · 0 评论 -
Scraper——BeautifulSoup and LXML
爬虫解析方式除了正则表达式,还有BeautifulSoup包和LXML模块。现在分别来介绍这两种方式。1.BeautifulSoup包功能比正则表达式很多,且要简洁明白一些。但是,由于它是用python编写出来的包,速度会慢一些。# 数据抓取——BeautifulSoup包'''官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/d原创 2017-05-23 20:26:02 · 517 阅读 · 0 评论 -
Scraping_regex
上面链接爬虫只是能将我们所需的网页下载下来,但是,我们没办法得到我们想要的数据。因此,我们只有URL管理器和URL下载器是不足以组成一个完整的网络爬虫的。我们还需要URL解析器,对数据进行提取。数据抓取(Scraping)有三种方式:1.正则表达式;2.第三方包——BeautifulSoup;3.lxml模块1.正则表达式(regex)方法。'''数据抓取:从网页中抓取一些感兴趣的数据,原创 2017-05-23 20:25:58 · 377 阅读 · 0 评论 -
Crawler——链接爬虫
对数据的提取和收集也是数据分析中一大重点,所以,学习爬虫是非常有用的。完成数据采集,对后面的数据分析做下基础。今天,要介绍的是来自《Web Scraping With Python》中的一个示例——链接爬虫。对于此类进行了简单的总结,便于相互学习。#! /usr/bin/env python# -*- coding:utf-8 -*-import reimport urlparsei原创 2017-05-23 20:25:53 · 687 阅读 · 0 评论 -
Scraper_compare( 'NoneType' object has no attribute 'group')
三种解析网页的方法各有所用,各有特点。通过,对比三种方式更能明白在什么情况之下采用什么方法。其中,运行代码时,可能会遇到一个bug(results[field] = re.search('.*?(.*?)' % field, html).group()AttributeError: 'NoneType' object has no attribute 'group'),这其实是有一个参数没有原创 2017-05-23 20:26:52 · 2812 阅读 · 0 评论 -
爬取百度学术文章及文本挖掘分析
学了一段时间的爬虫,给自己找一个小项目来练练手,爬取百度百科文章,之后结合自然语言处理分析文本之间的相似度和提取所有文章的重要信息。 目标总览爬取数据清洗数据词云展示文章相似度分析第一部分、爬取百度学术文章 首先,我们打开百度学术首页:http://xueshu.baidu.com/ 可以看到我们需要填入关键词,才能进行搜索我们需要的类型文章,在此我以“牛肉品质”为例,...原创 2018-06-05 11:26:47 · 15035 阅读 · 44 评论