Tony老师学爬虫

爬虫步骤:

 

1.获取数据

2.解析数据

3.保存数据

1.获取数据:

    1)先确定一个url:url=”https://movie.douban.com/top250?start="

    2)再准备好header:headers={"User-Agent",“host”,“cookies”}

    3)发送request请求,包含headers等信息:request=urllib.request.Request(url,headers=head)    #urllib.request发送请求

    4)获取响应:response=urllib.request.urlopen(request)         #urllib.urlopen()获取响应

    5)读取响应:html=response.read().decode("utf-8")        #read读取页面内容

2.解析数据:

    1)使用beautifulsoup解析网页:(beautifulsoup将复杂html转化为复杂的树形结构,每个节点都是python对象)

         soup= bs4.BeautifulSoup(html, "html.parser")         #创建一个soup对象,html是一个网页内容, 使用"html.parser"解析器。

    2)之后使用正则表达式提取想要的字符串:

          soup.find_all('div', class_="item")          #beautifulsoup中的find_all()找到所有匹配结果出现的地方,返回的是一个列表!

          findLink = re.compile(r'<a href="(.*?)">')            #用正则表达式限定要找的字符串

          link = re.findall(findLink,item)[0]              #re.findall (返回string中所有与pattern相匹配的全部字串,返回形式为数组)re.findall(pattern, string, flags=0)

3.保存数据:

    1)保存到Excel中:

    2)保存到数据库中(sqlite):

    3)保存为文本:

   

 


                
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值