如何用Python编写一个简单的爬虫进行数据挖掘(基于Jupyter NoteBook)

本文以一名计算机科学与技术大学生的视角,介绍了如何在Jupyter Notebook中编写简单的Python爬虫进行数据挖掘。主要内容包括:1) 使用requests和BeautifulSoup获取和解析网页;2) 解决中文乱码问题;3) 存储爬取的数据到txt文件。适合Python入门者学习。
摘要由CSDN通过智能技术生成

引言:

该文章将会从极其简略的角度去说明如何搭建一个爬虫对目标数据,有效信息进行挖掘,并且将小编在自学中遇到的一些问题进行引出和附上解决方案。本人为计算机科学与技术专业的在校大学生,数据挖掘和网络爬虫是自学的,若在一些专业术语和逻辑关系上表述不当,请多多见谅。

编写爬虫的基本思路:

1.获取页面,主要技术有requests、urlib、slenium、多进程多线程抓取、登录抓取、突破IP封禁和使用服务器抓取。
2.解析网页,主要技术有BeautifulSoup,lxml和re正则表达式。
3.存储数据,解决中文乱码(如encode-ISO-…)。

具体操作:

1.打开Jupyter NoteBook:在这里插入图片描述

2.新建NoteBook,选择Python3
其实搭建网络爬虫也可以使用PyCharm等受众程度更高的开发平台,尤其是更偏向于开发的同志们,小编学习网络爬虫更偏向于做数据分析和用于竞赛,所以使用Jupyter NoteBook。
在这里插入图片描述
3.搭建爬虫准备
搭建爬虫的话,必须先要引入相关的请求网页和抓取网页的包,我这里使用的是requests包和BeautifulSoup包。
具体代码:

#!/usr/bin/python
# coding:utf-8
import requests  # 引入包requests(就是一个简单的截取网页的技术)
from bs4 import BeautifulSoup  # 从bs4这个库中导入BeautifulSoup( 一种简单的网页数据抓取技术)

4.获取网页
那么解析网页,我们首先要定义我们要爬取的目标网址,只要在目标网址上对具体地址进行复制,粘贴到link中就行,非常简单,接着就是定义请求头的浏览器代理,伪装成浏览器,然后请求网页,就完成获取网页了。
打开目标网址,复制网址:
在这里插入图片描述
具体代码段:


                
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

泽楷学量化

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值