爬取任务工作流程:
1.获取网页源代码(requests方法、selium方法)
2.解析网页源代码,并从中提取所需要的信息:正则表达式findall函数
3.将提取到的数据存到文件或者数据库中
4.程序的异常处理、不间断运行以及爬取间隔的设置
1.正则表达式
正则表达式匹配规则的代码应该从pycharm爬取到的代码中复制,直接从网页复制的会爬取不到
re_url = '<a id=".*?" target="_blank" cacheStrategy="qcr:-1" href="(.*?)">'
re_url = '<a id=".*?" target="_blank" cachestrategy=""qcr:-1"" href="(.*?)">'
直接在网页复制源代码得来的代码,与pycharm中的代码还是有区别
2.Python中路径的写法
书写文件路径时,通常写两个反斜杠‘\\’,因为Python中一个反斜杠有特殊的意义:如\n表示换行符。
Python中路径书写方法1:E:\\文件夹1:\\文件名.文件格式。例如:
file1 = open('E:\\文件夹1\\test1.txt','a')#a表示文本打开方式为追加
在文件路径的字符串前加一个‘r’
Python中路径书写方法2:
file1 = open(r'D:\文件夹1\test1.txt','a')#a表示文本打开方式为追加
3.异常处理