python简易爬虫教程_原来入门爬虫竟然这么简单

爬虫技术是一个获取信息和数据的重要手段。学习用python做一个简单的爬虫。

爬虫主要分为两个部分:

获取数据

urllib 内建模块(url.request)

Requests 第三方库

Scrapy框架

第三方的API

解析数据

BeautifulSoup库

re模块

一.从网络上取的数据

简单的爬虫是可以使用Requests库来完成的。

Requests的基本使用方法

requests.get()用来请求指定URL位置的资源,对应的是HTTP协议的GET方法。

爬虫有各式各样的,做个简单的来玩耍一下,下面以爬豆瓣读书上《利用Python进行数据分析》这本书的的书评作为例子。

最简单的爬回来一个页面import requests

r = requests.get('https://book.douban.com/subject/25779298/comments/')

with open(r'D:\demo.txt', 'w') as file:

file.writelines(r.text)

使用requests模块的get方法,从网站上把一整个页面全都保存到了本地的D盘中的demo.txt文件中。这是一个极度简单的爬虫。其中requests本身自己还有许多属性和方法,可以去官网参考学习。如果需要把爬虫收集回来的数据保存到本地的话,还需要去了解一下文件操作和数据库操作的知识。

二.把数据解析出来

一般的标签网页解析--BeautifulSoup

安装的时候要注意:Pyhton3要安装BeautifulSoup4才是正常使用的。

打开刚才生成的demo.txt文件,会发现文件中保存的是一整个页面的代码,内容十分复杂,所以需要去解析一下页面的内容,才能够把我们需要的短评抽取出来。我们先研究一下。

打开文件,或者在网页页面按F12进入调试模式会发现,短评基本上是在一个相同的class的p标签里面的

入门书,零基础看了这本书也能用python的pandas和matplotlib进行一些简单的数据分析,

数据分析不在乎用什么工具,而是有目的地去找一y些insight,下一步我需要达到的效果是:如果产生一个想法,

能用工具快速验证(如数据预处理,绘出图标等)。

引入beautifulsoup来解析一下。要使用到的lxml解析包同样是需要安装的。

修改一下刚才的极简爬虫:import requests

from bs4 import BeautifulSoup

r = requests.get('https://book.douban.com/subject/25779298/comments/')

bs = BeautifulSoup(r.text, 'lxml')

comments = bs.find_all('p', 'comment-content')

with open(r'D:\demo1.txt', 'w') as file:

for item in comments:

file.writelines(item.string)

激动的打开了demo.txt 文件后,发现天呐撸,所有的评论都窝在一行了,我们要给他区分出来,并且换行,再简单也要有点可读性。

修改一下刚才的小爬虫:file.writelines(item.string + '\n')

只要写文件的时候加入这么一个简单的换行符,就可以把每个评论换行来看了,而不是挤成一坨。

复杂细节解析--正则表达式

玩玩爬完文字评论,可以发现,豆瓣本身还是有一个评星星等级的一个评价,把这个也爬下来作为一个数据收集起来。打开网页,F12找到这个评星星会发现,这个直接读取标签内的内容不一样,它是写在标签的class里面的。例如下面的五星推荐 是 allstar50,而一个四星评价是 allstar40。

这里就需要使用正则表达式来提取这种复杂的情况。因为不是所有人都有打分,把有分数都拿出来,然后给算一个平均值作为参考。

再让小爬虫变身一下:import requests

import re

from bs4 import BeautifulSoup

# 得到评论正文

r = requests.get('https://book.douban.com/subject/25779298/comments/')

bs = BeautifulSoup(r.text, 'lxml')

comments = bs.find_all('p', 'comment-content')

# 得到评论的评分并计算总分和平均分

rule = re.compile('

comments_star = re.findall(rule, r.text)

totalsocre = 0

for star in comments_star:

totalsocre += int(star)

avgsocre = totalsocre / len(comments_star)

with open(r'D:\demo1.txt', 'w') as file:

file.write('此书的评价平均分(满分50):  ' + str(avgsocre) + '\n')

for item in comments:

file.write(item.string + '\n')

以上,完成了一个极简的爬虫。网络数据千千万,这个爬虫顶多算是蜉蝣,难以撼动各种。不过爬虫是一个强大的数据收集手段,值得与深入的学习。于此与各位学习pyhton的人们共勉。不过爬数据的时候也请查阅各网站对爬虫的限定范围,共建良好网络环境。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python爬虫是指使用Python编程语言编写的,用于自动化地从互联网上获取数据的一种程序。而CentOS是一种基于Linux操作系统的开源操作系统,它具有安全稳定、功能强大的特点,因此是Python爬虫程序开发的一个很好的工具选择。以下是Python爬虫基础教程一中介绍的CentOS环境安装的步骤: 1. 下载CentOS虚拟机镜像文件,建议选择CentOS 7版本。 2. 安装虚拟机软件,如VMware或VirtualBox。 3. 在虚拟机软件中创建新的虚拟机,选择CentOS虚拟机镜像文件作为虚拟机映像文件。 4. 启动虚拟机并登录CentOS系统,使用终端输入命令进行环境配置和安装,如安装Python、pip、BeautifulSoup等工具。 通过以上步骤,我们可以在CentOS操作系统下成功配置Python爬虫所需要的开发环境,实现Python爬虫程序的正常运行。在后续的学习中,还可以学习到更加高级的Python爬虫技术,例如Scrapy、Selenium等,进一步提高爬虫程序的功能和效率。 ### 回答2: 在python爬虫基础教程1中,介绍了爬虫的基础知识和技巧。为了使爬虫运行的更加稳定和有效,我们需要在合适的环境下搭建爬虫。因此,在这里,我们将会学习如何在CentOS系统下安装python环境。 步骤1:安装Python 在CentOS系统下安装Python简单。首先,我们需要打开终端,输入以下命令安装Python: ``` sudo yum install python3 ``` 这会下载并安装Python3到你的系统中。在安装过程中,你需要输入一个管理员密码,以便在安装过程中进行确认。 步骤2:安装pip 在安装完Python后,我们需要安装一个名为pip的软件来管理Python模块。我们可以使用以下命令: ``` sudo yum install python3-pip ``` 这会下载并安装pip到你的系统中。在完成安装后,你应该能看到一条类似于“Successfully installed pip-20.3.4”的信息。 步骤3:安装其他必要软件包 在安装完Python和pip后,我们可以使用pip安装所需的软件包。但是,在进行这一步之前,我们需要安装其他一些必要的软件包。我们可以使用以下命令来安装它们: ``` sudo yum -y install python3-devel libxslt-devel libxml2-devel ``` 此命令将下载和安装必要的软件包。一旦所有软件包都已安装成功,我们就可以开始安装其他必要模块。 步骤4:安装必要的Python模块 在安装完所需的软件包后,我们可以使用pip安装我们所需的模块。如果你想要使用爬虫,你需要安装以下模块: - beautifulsoup4:一个用于解析HTML和XML文档的库 - requests:一个HTTP请求库 我们可以使用以下命令安装这些模块: ``` sudo pip3 install beautifulsoup4 requests ``` 一旦安装完成,我们就能够使用Python构建我们的爬虫了。 总体而言,在CentOS系统上安装Python和必要的软件包非常简单。只需跟着上面的指南一步一步进行,你就能够安装好所有必要的工具,并开始使用Python爬虫构建你的爬虫程序。如果你需要安装其他的模块或软件包,你可以使用pip安装。祝你好运! ### 回答3: Python爬虫已经成为了网络抓取的一大利器,它可以轻松地获取互联网上的信息,包括图片、文字、音频、视频等等。而Centos作为一款稳定可靠的操作系统,也为Python爬虫提供了很好的支持。那么如何在Centos环境下安装Python爬虫呢? 在本教程中,我们会通过以下步骤来安装Python爬虫环境: 1. 安装Python 3.6版本 Centos系统自带的Python版本可能比较低,需要先安装Python 3.6版本。可以通过以下命令来安装: ```bash yum install epel-release yum install python36 python36-devel ``` 2. 安装pip pip是Python的包管理工具,可以轻松地安装和管理Python第三方库。可以通过以下命令来安装pip: ```bash yum install python36-pip ``` 3. 安装必要的库 Python爬虫需要使用的库有很多,需要根据需要来进行安装。在本教程中,我们需要安装requests和beautifulsoup4两个库,可以通过以下命令来安装: ```bash pip3 install requests pip3 install beautifulsoup4 ``` 4. 安装PyCharm(可选) PyCharm是一款强大的Python IDE,可以提高开发效率。可以在Centos系统上安装PyCharm来进行Python爬虫的开发。可以通过以下命令来安装: ```bash wget https://download.jetbrains.com/python/pycharm-professional-2019.2.4.tar.gz tar -xzvf pycharm-professional-2019.2.4.tar.gz cd pycharm-professional-2019.2.4/bin ./pycharm.sh ``` 5. 测试Python爬虫环境 在安装完成Python爬虫环境后,可以通过编写Python脚本来测试环境是否正常工作。例如,可以编写一个简单爬虫脚本来获取网页内容: ```python import requests url = 'https://www.baidu.com' response = requests.get(url) print(response.text) ``` 通过运行脚本,可以看到该网页的内容被输出在控制台上,说明Python爬虫环境已经安装成功。 通过以上步骤的操作,我们可以轻松地在Centos系统上搭建Python爬虫环境。通过Python爬虫,我们可以轻松地获取互联网上的信息,并进行分析和处理,为我们的工作和学习提供了很大的便利。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值