Python爬虫 - 获取数据

这两天接触了一下python爬虫,根据网上的一些博客写了下面的代码来抓取网上的数据,记录一下。


#from bs4 import BeautifulSoup #解析html或xml文件的库
import urllib.request
import csv
import re
import json


csv_file = open("rent.csv","w",encoding='utf-8') 
csv_writer = csv.writer(csv_file, delimiter=',')

class Spider:
	def loadPage(self):
        # url 是想爬取的网站
		url = "xxx"

		#user-Agent头
		user_agent="Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0"
		headers = {"User-Agent":user_agent}
		req = urllib.request.Request(url,headers = headers)
		response = urllib.request.urlopen(req)
		html =str(response.read(),'utf-8')

		
		#根据html,找到自己所需的信息,再根据正则表达式进行匹配
		#re.S 如果没有re.S,则是只匹配一行有没有符合规则的字符串,如果没有则匹配下一行重新匹配
		#如果加上re.S,则是将所有的字符串按一个整体进行匹配
		
		pattern = re.compile(r'这里填入正则表达式',re.S)
		item_list = pattern.findall(html)#获取数据,为一个数组
		
		for data in item_list:
			dictinfo = json.loads(data)
            csv_writer.writerow([dictinfo["title"],dictinfo["address"],dictinfo["avgScore"],dictinfo["avgPrice"]]) #根据获取到的实际数据,写入文件
		
		

if __name__ == "__main__":
	mySpider = Spider()

	mySpider.loadPage()
		
	csv_file.close()
	

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值