网络爬虫新手学习记录

最新推荐文章于 2024-08-17 20:45:04 发布

浩瀚星辰nic

最新推荐文章于 2024-08-17 20:45:04 发布

阅读量309

点赞数 1

分类专栏：网络爬虫学习文章标签：网络爬虫新手学习笔记

本文链接：https://blog.csdn.net/qq_42874422/article/details/84678115

版权

网络爬虫学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

作为一个网络爬虫的初学者，写博客作为学习记录。
爬虫语言由python书写
现在写一个最简单的爬虫

import urllib
url="www.baidu.com"
html=urllib.urlopen(url).read()
print(html)

这样就可以打印出百度搜索的首页的源代码了

接下来可以深化一下,并用一个强大的库requests,同时加上headers
re是使用正则表达式所需要的库

import requests
import re

url="www.baidu.com"
headers={'User-Agent': 'Fiddler/5.0.20182.28034 (.NET 4.7.1; WinNT 10.0.17134.0; zh-CN; 12xAMD64; Auto Update; Full Instance;\
 Extensions: APITesting, AutoSaveExt, EventLog, FiddlerOrchestraAddon, HostsFile, RulesTab2, SAZClipboardFactory, SimpleFilter, Timeline)'}

html=requests.get(url,headers=headers)
html=re.compile(html)
file=re.findall("<p> title=".*?"(.*?)</p>,html)

try:
	with open('baidu.txt','r+') as f:
		f.write(file)
		f.close()
except:
	pass