如何用Python编写一个简单的爬虫进行数据挖掘(基于Jupyter NoteBook)

最新推荐文章于 2024-10-10 11:35:14 发布

泽楷学量化

最新推荐文章于 2024-10-10 11:35:14 发布

阅读量4.3k

点赞数 10

文章标签： python 数据挖掘 html 编程语言大数据

本文链接：https://blog.csdn.net/SkyfromGD/article/details/116074885

版权

本文以一名计算机科学与技术大学生的视角，介绍了如何在Jupyter Notebook中编写简单的Python爬虫进行数据挖掘。主要内容包括：1) 使用requests和BeautifulSoup获取和解析网页；2) 解决中文乱码问题；3) 存储爬取的数据到txt文件。适合Python入门者学习。

摘要由CSDN通过智能技术生成

引言：

该文章将会从极其简略的角度去说明如何搭建一个爬虫对目标数据，有效信息进行挖掘，并且将小编在自学中遇到的一些问题进行引出和附上解决方案。本人为计算机科学与技术专业的在校大学生，数据挖掘和网络爬虫是自学的，若在一些专业术语和逻辑关系上表述不当，请多多见谅。

编写爬虫的基本思路：

1.获取页面，主要技术有requests、urlib、slenium、多进程多线程抓取、登录抓取、突破IP封禁和使用服务器抓取。
2.解析网页，主要技术有BeautifulSoup，lxml和re正则表达式。
3.存储数据，解决中文乱码(如encode-ISO-…)。

具体操作：

1.打开Jupyter NoteBook：在这里插入图片描述

2.新建NoteBook，选择Python3
其实搭建网络爬虫也可以使用PyCharm等受众程度更高的开发平台，尤其是更偏向于开发的同志们，小编学习网络爬虫更偏向于做数据分析和用于竞赛，所以使用Jupyter NoteBook。
在这里插入图片描述
3.搭建爬虫准备
搭建爬虫的话，必须先要引入相关的请求网页和抓取网页的包，我这里使用的是requests包和BeautifulSoup包。
具体代码：

#!/usr/bin/python
# coding:utf-8
import requests  # 引入包requests(就是一个简单的截取网页的技术)
from bs4 import BeautifulSoup  # 从bs4这个库中导入BeautifulSoup( 一种简单的网页数据抓取技术)

4.获取网页
那么解析网页，我们首先要定义我们要爬取的目标网址，只要在目标网址上对具体地址进行复制，粘贴到link中就行，非常简单，接着就是定义请求头的浏览器代理，伪装成浏览器，然后请求网页，就完成获取网页了。
打开目标网址，复制网址：
在这里插入图片描述
具体代码段：