python数据爬虫演练（一）

最新推荐文章于 2024-09-05 11:10:46 发布

谁还不是个小菜鸡呢

最新推荐文章于 2024-09-05 11:10:46 发布

阅读量93

点赞数 2

分类专栏： pycharm 文章标签： python

本文链接：https://blog.csdn.net/cq280004669/article/details/109121903

版权

pycharm 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、新建项目
二、导入包
三、在main里输入代码
四打开自动生成的xls文件
总结

前言

本文讲解如何进行简单爬取页面数据

一、新建项目

新建一个项目为spider（名字自己想也可以）
在这里插入图片描述

二、导入包

点击file》setting添加bs4h和xlwt 。剩下下的pycharm自带如若没有，再下载在这里插入图片描述

在这里插入图片描述

三、在main里输入代码

import re
import  bs4
import  urllib.request,urllib.error  #解析url
import  xlwt
import  sqlite3


finklink=re.compile(r'<a href="(.*?)">')
findImg=re.compile(r'<img.*src="(.*?)"',re.S) #让换行符包含在字符串中
def main():
    baseurl ="https://movie.douban.com/top250?start="
    datalist=getData(baseurl)
    savapath="douban250.xls"
    #askURL("https://movie.douban.com/top250?start=50&filter=")
    savaData(savapath,datalist)

def  getData(baseurl):
    datalist=[]
    for  i in range(0,10):
        url= baseurl+str(i*25)
        html=askURL(url)
        soup= bs4.BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            data=[]
            item= str(item)
            link = re.findall(finklink,item)[0]
            data.append(link)
            imgs=re.findall(findImg,item)[0]
            data.append(imgs)
            datalist.append(data)

    return  datalist
def savaData(savapath,datalsit):
    workbook = xlwt.Workbook(encoding='utf-8')
    worksheet = workbook.add_sheet("sccp",cell_overwrite_ok=True)
    col=("电影简介","图片链接")
    for i in range(0,2):
        worksheet.write(0,i,col[i])
    for i in range(0,250):
        print("第%d条"%i)
        data=datalsit[i]
        for j in range(0,2):
            worksheet.write(i+1,j,data[j])
    workbook.save(savapath)
#模拟浏览器 伪装使用
def askURL(url):
    head={
       "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 86.0.4240.75Safari / 537.36"

    }
    request= urllib.request.Request(url,headers=head)
    html=""
    try:
        response=urllib.request.urlopen(request)
        html= response.read().decode("utf-8")
        print(html)
    except 1:
        print("2222")

    return html


if __name__ == "__main__":
    main()

四打开自动生成的xls文件

在这里插入图片描述

总结

提示：这个只是简单的对豆瓣网站数据进行抓取小部分数据，可以自己研究添加

谁还不是个小菜鸡呢

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据爬虫演练（一）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、新建项目二、导入包三、在main里输入代码四打开自动生成的xls文件总结前言本文讲解如何进行简单爬取页面数据一、新建项目新建一个项目为spider（名字自己想也可以）二、导入包点击file》setting添加bs4h和xlwt 。剩下下的pycharm自带如若没有，再下载三、在main里输入代码import reimport bs4import urllib.request,urllib.
复制链接

扫一扫