python爬虫需要安装的模块_学习Python的第45天,我终于彻底明白怎么安装爬虫需要的模块了...

终于开始跟着老师开始一起输入代码。

没想到一上来就遇到问题。

用 # 备注,之前黑马课程讲 # 后面是要有个空格的,而这个老师全都是没有的。

咱也不知道该听谁的,而不加空格的话 萍、PyCharm 会有下划线提示,索性,那就都加上吧。

这行代码 if __name__ == "__main__: 老师称为程序的入口。

也就是在查看代码时候,一看到这句话,就知道是从这行代码开始执行的,中间不会再有其他的执行点。

引入模块

讲述模块的概念,这个在之前黑马的课程学习过,轻松加愉快了。

跟之前的课程区别在于,他是在一个文件夹下 新建py文件 进行说明。

所以代码中,不是简单的用 import 导入模块,而是 from... import 方法导入。

本次案例主要需要使用到的模块是: sys 、 bs4、 re、 urllib、 xlwt。

安装模块,有个挺有意思的办法:在 PyCharm 下方,点 Terminal 竟然直接就能进入 cmd 窗口,进去之后再使用 pip 命令安装就可以了。

当然,老师最推荐的,还是在 PyCharm 中,用 setting 来安装,这个我在之前的文章有说过的。

让我更明白的一点是,原来上述两种方法是只使用后面一种就可以了,我之前一直以为是两个要同时都使用呢。

后面的办法最大的优点,就是在安装包的同时,你可以关闭窗口继续输入代码,不用去管它。

而像命令提示行的办法,就只能傻傻等着了。

现在,把所有需要的库一次性导入吧,哪个没装也都给他装上。

构建流程

一个小技巧:在 PyCharm 中,如果文字没有变色(比如灰色),说明没有被调用过;而变了颜色(如橙色、蓝色等),就是被调用过了。没有变色的代码,将其删除,不影响程序的运行。

简单来说,爬取豆瓣,分三个大步骤:爬取网页、解析数据、保存数据。

事实上,每个步骤也都是个大工程,所以把每个步骤提取成一个函数,方便后期管理。

这里因为第一步和第二步可以说是交错进行,所以两个放在了一起。

第三步保存数据,需要给他指定一个路径,这里用到转义字符。

课程学到这里,还都是感觉不难。

不过,貌似明天就该应该挑战了。

加油,奥利给!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值