一.作业目标:爬取豆瓣网出版社名并存放到txt文本中。
二.编写源码步骤:
1:导入urllib库,并读取豆瓣网源码信息:
用decode对读取的信息进行编码处理,有的时候用“UTF-8”也会报错,以后具体问题具体分析。
2:编写正则表达式,获取出版社信息:
注意:
A: mydata中存储的数据是以数组的形式进行存放的。所以可以用for循环进行输出。
B: 其中正则表达式的编写方式:
(1)打开豆瓣网,右键“查看源文件”(2)找到出版社的源代码格式,如下图所示(3)运用正则表达式的懒惰模式