python数据爬虫演练(一)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

本文讲解如何进行简单爬取页面数据


一、新建项目

新建一个项目为spider(名字自己想也可以)
在这里插入图片描述

二、导入包

点击file》setting添加bs4h和xlwt 。剩下下的pycharm自带如若没有,再下载在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三、在main里输入代码

import re
import  bs4
import  urllib.request,urllib.error  #解析url
import  xlwt
import  sqlite3


finklink=re.compile(r'<a href="(.*?)">')
findImg=re.compile(r'<img.*src="(.*?)"',re.S) #让换行符包含在字符串中
def main():
    baseurl ="https://movie.douban.com/top250?start="
    datalist=getData(baseurl)
    savapath="douban250.xls"
    #askURL("https://movie.douban.com/top250?start=50&filter=")
    savaData(savapath,datalist)

def  getData(baseurl):
    datalist=[]
    for  i in range(0,10):
        url= baseurl+str(i*25)
        html=askURL(url)
        soup= bs4.BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            data=[]
            item= str(item)
            link = re.findall(finklink,item)[0]
            data.append(link)
            imgs=re.findall(findImg,item)[0]
            data.append(imgs)
            datalist.append(data)

    return  datalist
def savaData(savapath,datalsit):
    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet("sccp",cell_overwrite_ok=True)
    col=("电影简介","图片链接")
    for i in range(0,2):
        worksheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%i)
        data=datalsit[i]
        for j in range(0,2):
            worksheet.write(i+1,j,data[j])
    workbook.save(savapath)
#模拟浏览器 伪装使用
def askURL(url):
    head={
       "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 86.0.4240.75Safari / 537.36"

    }
    request= urllib.request.Request(url,headers=head)
    html=""
    try:
        response=urllib.request.urlopen(request)
        html= response.read().decode("utf-8")
        print(html)
    except 1:
        print("2222")

    return html


if __name__ == "__main__":
    main()

四 打开自动生成的xls文件

在这里插入图片描述
在这里插入图片描述

总结

提示:这个只是简单的对豆瓣网站数据进行抓取小部分数据,可以自己研究添加

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值