关注小聚,获取数据分析最新资讯
在数据分析中,一个小小的快捷方式或附加组件有时真是天赐之物,并且可以成为真正的生产力助推器。所以,在这里小聚整理了使用Python进行数据分析的一些小技巧,
希望能成为你数据分析时 Python 日常帮手的最佳实践。
巧用 Python 爬虫,实现财富自由
首先可以用 Python 来进行爬虫,什么是爬虫?简单理解来说就是抓取网络上的数据(文档、资料、图片等)。比如你考研可以爬文档和学习资料,要网络上的表格数据做分析,批量下载图片等。
下面我们来看看是如何实现的。
01
爬取文档、学习资料
首先,你得先确定你要爬的网站是什么?你要获取的目的是什么?比如,小明想爬青研帮网站中的招考指南,所以他想搜集目前该网页的所有文章的标题和超链接,以方便后续浏览。
爬取网站的链接:https://zkaoy.com/sions/exam
目的:收集目前该网页的所有文章的标题和超链接
使用 Python,可以参考以下两步的代码模板实现(提示:需要先安装 Python 依赖:urllib3 bs4)。
第一步,下载该网页并保存为文件,代码如下。
import urllib3
# 第一个函数,用来下载网页,返回网页内容
# 参数 url 代表所要下载的网页网址。
# 整体代码和之前类似
def download_content(url):
http = urllib3.PoolManager()
response = http.request("GET", url)
response_data = response.data
html_content = response_data.decode()
return html_content
# 第二个函数,将字符串内容保存到文件中
# 第一个参数为所要保存的文件名,第二个参数为要保存的字符串内容的变量
def save_to_file(filename, content):
fo = open(filename,"w", encoding="utf-8")