引言:
该文章将会从极其简略的角度去说明如何搭建一个爬虫对目标数据,有效信息进行挖掘,并且将小编在自学中遇到的一些问题进行引出和附上解决方案。本人为计算机科学与技术专业的在校大学生,数据挖掘和网络爬虫是自学的,若在一些专业术语和逻辑关系上表述不当,请多多见谅。
编写爬虫的基本思路:
1.获取页面,主要技术有requests、urlib、slenium、多进程多线程抓取、登录抓取、突破IP封禁和使用服务器抓取。
2.解析网页,主要技术有BeautifulSoup,lxml和re正则表达式。
3.存储数据,解决中文乱码(如encode-ISO-…)。
具体操作:
1.打开Jupyter NoteBook:
2.新建NoteBook,选择Python3
其实搭建网络爬虫也可以使用PyCharm等受众程度更高的开发平台,尤其是更偏向于开发的同志们,小编学习网络爬虫更偏向于做数据分析和用于竞赛,所以使用Jupyter NoteBook。
3.搭建爬虫准备
搭建爬虫的话,必须先要引入相关的请求网页和抓取网页的包,我这里使用的是requests包和BeautifulSoup包。
具体代码:
#!/usr/bin/python
# coding:utf-8
import requests # 引入包requests(就是一个简单的截取网页的技术)
from bs4 import BeautifulSoup # 从bs4这个库中导入BeautifulSoup( 一种简单的网页数据抓取技术)
4.获取网页
那么解析网页,我们首先要定义我们要爬取的目标网址,只要在目标网址上对具体地址进行复制,粘贴到link中就行,非常简单,接着就是定义请求头的浏览器代理,伪装成浏览器,然后请求网页,就完成获取网页了。
打开目标网址,复制网址:
具体代码段: