代码需求很简单:打开一个网页,读取网页的源文件代码,是爬虫的第一步
代码如下:
import urllib.request
import re
url = 'https://tieba.baidu.com/index.html'
page = urllib.request.urlopen(url)
html = page.read()
html = html.decode('UTF-8')
print(html)
错误提示:module 're' has no attribute 'findall'
编程小白,刚学爬虫,整了上面的代码有大半天,逐字逐句看代码,检查语法错误,查python的模组功能没有解决方案,内心都要崩溃好几遍了!!!
最后无意间瞥见StackOverflow上竟有人提出同样的问题,有回复如下:
也就是说,如果有文件包中有以re.py命名的python文件,则python可能就会查看其中的内容,而不会直接导入标准的re库
看完恍然大悟,检查我的python练习文件包,似乎确实有这么一个re.py文件,罪魁祸首就是它,然后我果断地删除了它,立马就可以运行了!