文科生如何玩会 Python 爬虫?

640?wx_fmt=jpeg

本文来源 | Python 与算法社区

作者 | zglg

首图 | roffler barber school

开篇自我介绍一下,本人文科生,大学英语专业。

最开始接触编程是在大四前的那个暑假,由于自己性格偏内向,不太喜欢过多的人际交往,想往技术方向发展,加上网络上充斥着程序员薪资高的言论,于是下决心学习编程。

学编程必然要从一门语言入手,当时在知乎查了一下,发现对于零基础的人,两门编程语言推荐的比较多,一个是 Java,一个是 Python,又看到有大神说 Python 好学,但 Java 工作机会更多,于是选择了 Java(跑题了u1F602.png)。

学习方式是跟着视频来学,现在还记得那个 Java 教学的老师是马士兵,配置好环境后,学了浮点数整数等基本概念,还记得一开始代码总是要写什么public static void,然后就没有然后了,Java 就一直呆在硬盘里,一个学期过去了。

在长时间的虚度光阴中,总有几天是踌躇满志的,于是在大四的寒假,我又找回了学编程的冲动。又去知乎逛了一圈,可能由于 Python 的快速发展,推荐 Python 的越来越多,而且我想着科班生在学校就已经学 Java了(不知真假:),我大四再开始学没什么优势,于是我又下定决心学习 Python!

人生苦短,我用 Python!先给自己洗脑一波!

说到 Python,廖雪峰的教程广受好评,于是我打开了廖雪峰的 Python3 教程,Python 果然比 Java 语法简单多了,一口气我就学到了 for 循环,然后卡在了 continue 上

接着我在网上查了很多关于 continue 的讲解,终于,没有 continue(继续)下去了……荒废几周后,又在某晚的颓废过后重振雄风,继续了 Python 的学习,这次我直接下了本《简明 Python 教程》(A Bit of Python),跟着PDF 学,为了防止自己迎难而退,我囫囵吞枣地过了一遍,看懂了的就自己敲一遍代码,没理解的就照抄一遍代码,成功地完成了第一次比较完整的入门学习。

后来迫于就业压力,战略性地调整了学习方向,开始学习 Excel 和 SQL,在数据分析方面找工作。

由于非科班出身及没有什么数据分析的经验和成果,最后就业的岗位是初级数据分析师,其实就是个“表哥”,SQL 导一导数据,然后 Excel 弄一弄透视表,求求平均数什么的,没啥技术含量。幸好工作比较清闲,刚入职也没什么事干。

得知整个数据组都没人会爬虫后,我决定学一学爬虫。

早就听说 Python 在爬虫方面十分擅长,但一直没有学习的动机,反正闲着也闲着,不如学学爬虫,万一学会了,还能有一技之长在公司立足!

第二天,我就马上着手去做了,Python 基础语法虽然不太熟悉了,但是不懂就直接百度(基础的用不着谷歌)。又把爬虫相关的 Python 语法熟悉了一遍,列表字典、print、return、遍历这些。

当天下午就写出了第一个爬虫!整个过程都是在积极主动地学习,出结果的那一刹那,真是喜不自禁,这种学习的正面反馈更激励了我写代码!每天快下班的时候,同事都在百无聊赖地倒计时,而我越到下班越发奋,因为在工作中有收获了,我在家就可以心安理得地荒废光阴了,这种每天都有进展的感觉太棒了!

现在的我,想往更高层次的数据分析方向发展,目前学习了 numpy,pandas 和 matplotlib 这三个经典的 Python 数据分析的库,Power Bi 也开始接触了,但统计学和算法方面迟迟没有系统地学习。

在我的理解里,代码和分析思维都离不开理论的支持,没有更深的理论支撑,做出来的成果也只是非常初级,低端的东西,理论水平的低下会严重制约生产者的视野。

我现在也勉勉强强算是入门了吧,本着分享的精神,想给准备学习 Python 或者正在入门 Python 的朋友们一些建议供参考:

1. 脚踏实地写代码

新手阶段,大家肯定会有很多困惑,喜欢在论坛上,qq 群、微信群上问类似的问题:

“0基础能不能学 Python”

“现在学 Python 晚不晚?”

“什么编辑器好”

“要不要在 Linux 上学习 Python“

”Python3 还是 Python2 ?“

……

对于以上问题,我的简单答复是:能学,不晚!

sublime text 3 或者 pycharm,windows 上入门没有问题,选择 Python3。

很多时候我们问问题并不是真的疑惑,只是在拖延,不想去行动。“种一棵树最好的时间是十年前,而后是现在”,我们要花精力解决的是实际码代码中出现的问题,而不是自己空想出来的问题。而且这些问题并没有绝对的正误之分,弄懂一个另一个也就触类旁通了。我给的答案都是主流的选择,相应地网上会有更多的资料。

2. 多种途径查问题

别指望一本书能解决所有问题,有时候一个问题想不通看不懂的时候,换一种方式查,比如廖雪峰教程上看的一个语法不懂,就去菜鸟教程看一看,再不懂就在网上搜搜,多看看别人是怎么理解的,不同人有不同的看法,不一定哪一个就刚好能说通你。

网上资源很多,但是你会发现过时的,错误的信息也同样多,代码的东西多尝试不怕的,不要怕犯错。在错误中更能发现自己理解上的偏差。伸手党一般不会有人搭理的,所以学会在网络中找现成的答案是自学的重要步骤。

3. 实战项目中提高

基础语法过一遍就好了,不必深究,在项目中会不断地涉及到基础知识,忘了再查很快就能熟悉的。在基础上花太多时间往往会导致进度过慢,成就感不足,难以坚持。直接从实战中边练边学,想往数据分析方面发展,就大胆地学习 numpy、pandas、matplotlib,想搞爬虫就赶紧看看 requests,pyquery,正则表达式;想搞 web 不妨试试 flask。

Python 有很多优秀的库,大神们早就给我们提供了处理问题的捷径,站在前人的肩膀上,我们入门的难度更低了,有了基本的语法知识,就赶紧去实战中巩固吧!

本来想着再详细一些的,但一写起来洋洋洒洒的,很多细节都还没说够,所以更加系统的分享我都放在了我的这篇《Python 数据分析师必备的入门学习路线和技能》 Chat 里,希望能给入门者多多少少一些帮助吧。

扫码订阅我的这场 Chat 查看完整全文

640?wx_fmt=jpeg


点击阅读原文,订阅我的这场 Chat ,一定会帮助到想成为数据分析师的你

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值