作为一个网络爬虫的初学者,写博客作为学习记录。
爬虫语言由python书写
现在写一个最简单的爬虫
import urllib
url="www.baidu.com"
html=urllib.urlopen(url).read()
print(html)
这样就可以打印出百度搜索的首页的源代码了
接下来可以深化一下,并用一个强大的库requests,同时加上headers
re是使用正则表达式所需要的库
import requests
import re
url="www.baidu.com"
headers={'User-Agent': 'Fiddler/5.0.20182.28034 (.NET 4.7.1; WinNT 10.0.17134.0; zh-CN; 12xAMD64; Auto Update; Full Instance;\
Extensions: APITesting, AutoSaveExt, EventLog, FiddlerOrchestraAddon, HostsFile, RulesTab2, SAZClipboardFactory, SimpleFilter, Timeline)'}
html=requests.get(url,headers=headers)
html=re.compile(html)
file=re.findall("<p> title=".*?"(.*?)</p>,html)
try:
with open('baidu.txt','r+') as f:
f.write(file)
f.close()
except:
pass
这样就可以扮成浏览器进行网页爬取。