想学Python爬虫，数据分析，自动化办公，没有任何编程基础，该如何入门？

Python程序员小泉

已于 2024-01-06 18:56:12 修改

阅读量494

点赞数

分类专栏： python入门 python 程序员文章标签： python Python 开发 Python 程序员 Python教程

于 2023-03-14 09:56:23 首次发布

本文链接：https://blog.csdn.net/m0_59162248/article/details/129517740

版权

python 同时被 3 个专栏收录

753 篇文章 63 订阅

订阅专栏

python入门

434 篇文章 10 订阅

订阅专栏

程序员

216 篇文章 1 订阅

订阅专栏

随着互联网的数据爆炸式增长，而利用Python爬虫我们可以获取大量有价值的数据：

1.爬取数据，进行市场调研和商业分析

爬取知乎优质答案，筛选各话题下最优质的内容；抓取房产网站买卖信息，分析房价变化趋势、做不同区域的房价分析；爬取招聘网站职位信息，分析各行业人才需求情况及薪资水平。

2.作为机器学习、数据挖掘的原始数据

比如你要做一个[推荐系统]，那么你可以去爬取更多维度的数据，做出更好的模型。

3.爬取优质的资源：图片、文本、视频

爬取商品的评论以及各种图片网站，获得图片资源以及评论文本数据。

掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现。

首先我们来了解爬虫的基本原理及过程

大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

简单来说，我们向服务器发送请求后，会得到返回的页面，通过解析页面之后，我们可以抽取我们想要的那部分信息，并存储在指定的文档或数据库中。

在这部分你可以简单了解 HTTP 协议及网页基础知识，比如 POSTGET、HTML、CSS、JS，简单了解即可，不需要系统学习。

学习 Python 包并实现基本的爬虫过程

Python中爬虫相关的包很多：[urllib]、requests、bs4、scrapy、pyspider 等，建议你从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

如果你用过 BeautifulSoup，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。掌握之后，你会发现爬虫的基本套路都差不多，一般的静态网站根本不在话下，小猪、豆瓣、[糗事百科]、腾讯新闻等基本上都可以上手了。

存数据

首先，我们来说存数据，是因为在初期学习的时候，接触的少，也不需要太过于关注，随着学习的慢慢深入，我们需要保存大批量的数据的时候，就需要去学习数据库的相关知识了！

初期，我们抓到需要的内容后，只需要保存到本地，无非保存到文档、表格（excel）等等几个方法，这里大家只需要掌握with语句就基本可以保证需求了。大概是这样的：

with open（路径以及文件名，保存模式） as f：
f.write（数据）#如果是文本可直接写入，如果是其他文件，数据为[二进制模式]更好

当然保存到excel表格或者word文档需要用到 xlwt库（excel）、python-docx库（word），这个在网上很多，大家可以自行去学习。

取数据

说了这么多，我们来说说主题。怎么来抓取我们想要的数据呢？我们一步步的来！

一般所谓的取网页内容，指的是通过Python脚本实现访问某个URL地址(请求数据)，然后获得其所返回的内容（HTML源码，Json格式的字符串等）。然后通过解析规则（[页面解析]），分析出我们需要的数据并取（内容匹配）出来。

在python中实现爬虫非常方便，有大量的库可以满足我们的需求，比如先用requests库取一个url（网页）的源码

import requests#导入库
url = ‘你的[目标网址]’
response = requests.get(url) #请求数据
print(response.text) #打印出数据的文本内容

这几行代码就可以获得网页的源代码，但是有时候这里面会有乱码，为什么呢？

因为中文网站中包含中文，而终端不支持[gbk编码]，所以我们在打印时需要把中文从gbk格式转为终端支持的编码，一般为utf-8编码。

所以我们在打印[response]之前，需要对它进行编码的指定（我们可以直接指定代码显示的编码格式为网页本身的编码格式，比如[utf-8]，[网页编码]格式一般都在源代码中的标签下的charset属性中指定）。加上一行即可。

response.encode = ‘utf-8’ #指定编码格式

至此，我们已经获取了网页的源代码，接下来就是在乱七八糟的源代码中找到我们需要的内容，这里就需要用到各种匹配方式了，常用的几种方式有：[正则表达式]（re库），bs4（Beautifulsoup4库），xpath（lxml库）！

建议大家从正则开始学习，最后一定要看看[xpath)，这个在爬虫框架scrapy中用的很多！

通过各种匹配方式找到我们的内容后（注意：一般匹配出来的是列表），就到了上面所说的存数据的阶段了，这就完成了一个简单的爬虫！

当然了，在我们具体写代码的时候，会发现很多上面没有说到的内容，比如

获取源代码的时候遇到反爬，根本获取不到数据
有的网站需要登录后才可以拿到内容
遇到验证码
获取到内容后写入文件出错
怎样来设计循环，获取大批量的内容甚至整站爬虫

剩下的我们再来慢慢的研究。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

朋友们如果需要这份完整的资料可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

👉[[CSDN大礼包：《python安装包&全套学习资料》免费分享]]（安全链接，放心点击）

一、Python学习大纲

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

二、Python必备开发工具

在这里插入图片描述

三、入门学习视频

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。在这里插入图片描述

五、python副业兼职与全职路线

在这里插入图片描述

👉[[CSDN大礼包：《python兼职资源&全套学习资料》免费分享]]（安全链接，放心点击）

Python程序员小泉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录