爬虫综合大作业

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075


 

一.把爬取的内容保存取MySQL数据库

  • import pandas as pd
  • import pymysql
  • from sqlalchemy import create_engine
  • conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8"
  • engine = create_engine(conInfo,encoding='utf-8')
  • df = pd.DataFrame(allnews)
  • df.to_sql(name = ‘news', con = engine, if_exists = 'append', index = False)

 

二.爬虫综合大作业

  1. 选择一个热点或者你感兴趣的主题。
  2. 选择爬取的对象与范围。
  3. 了解爬取对象的限制与约束。
  4. 爬取相应内容。
  5. 做数据分析与文本分析。
  6. 形成一篇文章,有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明。
  7. 文章公开发布。

 

参考:


32个Python爬虫项目


都是谁在反对996?


Python和Java薪资最高,C#最低!


给《流浪地球》评1星的都是什么心态?


《都挺好》弹幕数据,比剧情还精彩?


爬了自己的微信好友,原来他们是这样的人……

春节人口迁徙大数据报告!

七夕前消费趋势数据

 

爬了一下天猫上的Bra购买记录,有了一些羞羞哒的发现...

Python做了六百万字的歌词分析,告诉你中国Rapper都在唱些啥

分析了42万字歌词后,终于搞清楚民谣歌手唱什么了

十二星座的真实面目

唐朝诗人之间的关系到底是什么样的?

中国姓氏排行榜

 

三.爬虫注意事项

1.设置合理的爬取间隔,不会给对方运维人员造成压力,也可以防止程序被迫中止。

  • import time
  • import random
  • time.sleep(random.random()*3)

2.设置合理的user-agent,模拟成真实的浏览器去提取内容。

  1. 首先打开你的浏览器输入:about:version。
  2. 用户代理:
  3. 收集一些比较常用的浏览器的user-agent放到列表里面。
  4. 然后import random,使用随机获取一个user-agent
  5. 定义请求头字典headers={’User-Agen‘:}
  6. 发送request.get时,带上自定义了User-Agen的headers

 

3.需要登录

发送request.get时,带上自定义了Cookie的headers

headers={’User-Agen‘:  

'Cookie':    }

 

4.使用代理IP

通过更换IP来达到不断高 效爬取数据的目的。

headers = {

    "User-Agent": "",

}

proxies = {

    "http": " ",

    "https": " ",

}

response = requests.get(url, headers=headers, proxies=proxies)

# encoding=utf-8
import requests
import time
import re
import csv
import json
from bs4 import BeautifulSoup as bs

# 获取一页数据
def get_one_page(offset):
    # 设置请求头
    headers={
    'Referer':'https://movie.douban.com/top250?start=0&filter=',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    url='https://movie.douban.com/top250?start='+str(offset)+'&filter='
    try:
        time.sleep(1)
        response=requests.get(url,headers=headers)
        # 判断相应状态,200表示请求成功
        if response.status_code == 200:
            return response.content
    except Exception as e:
        print('出错!')
        return None

# 解析网页
def parse_page(offset):
    response=get_one_page(offset)
    if response:
        # print(response.decode('utf-8'))
        html=bs(response.decode('utf-8'),'html.parser')
        items=html.find_all('div',{'class':'item'})
        if items:
            for item in items:
                a=item.find('div',{'class':'hd'}).a
                s=item.find('div',{'class':'star'})
                bd=item.find('div',{'class':'bd'})
                href=a.attrs['href']
                title=a.span.get_text()
                quote=bd.find('p',{'class':'quote'}).span.get_text()
                star=s.find('span',{'class':'rating_num'}).get_text()

                conment_people=re.search(r'[0-9].*[^人评价</span>]',str(s.contents[len(s.contents)-2])).group()
                yield{
                'title':title,
                'href':href,
                'star':star,
                'quote':quote,
                'number':conment_people
                }
        else:
            print('没有找到该节点')

# 保存数据到csv文件里面
def save_csv_files(contents,i):
    with open('douban_top250.csv','a',encoding='utf-8',newline='')as f:
        # 将python中的字典转换为json格式,并对输出中文指定ensure_ascii=False
        csvFile=csv.writer(f)
        if i ==0:
            csvFile.writerow(['名称','链接','星级','引言','评论人数'])
        datalist=[]
        for data in contents:
            csvList=[]
            csvList.append(data['title'])
            csvList.append(data['href'])
            csvList.append(data['star'])
            csvList.append(data['quote'])
            csvList.append(data['number'])
            datalist.append(csvList)
        csvFile.writerows(datalist)

# 程序主入口
def main(offset,i):
    save_csv_files(parse_page(offset),i)

if __name__=='__main__':
    for i in range(10):
        main(i*25,i)

 

爬出来的CSV文件如下图所示

 

 

 爬出来的豆瓣电影评论前20,如下图所示:

 爬出来的豆瓣电影星级前20,如下图所示:

 

 爬取星级数还有评论人数较高的数据,如下图所示:

 按评论在词云制作出的词云统计如下图所示:

     

 

转载于:https://www.cnblogs.com/lb2016/p/10785298.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于Python爬虫大作业是指使用Python编写的程序,通过网络爬取数据,并进行相应的数据分析和可视化展示。在这个大作业中,学生们可以选择不同的主题和目标,如天气数据、斗鱼主页信息等。 具体来说,这个大作业可以包括以下几个方面的内容: 1. 使用Python编写爬虫程序,通过网页抓取相关数据。比如,可以利用Python的requests库获取网页内容,利用BeautifulSoup库解析网页结构,从而得到所需的数据。 2. 进行数据的存储和处理。可以使用SQLite数据库进行数据存储,使用Pandas库进行数据分析和处理,例如数据清洗、筛选、统计等操作。 3. 可以利用可视化工具(如Matplotlib、Seaborn等)对数据进行可视化展示,以便更好地理解和分析数据。 4. 可以设计图形界面,使用wxPython库来实现用户交互和展示结果。 总的来说,基于Python爬虫大作业是一个综合性的项目,涵盖了数据爬取、数据处理、数据分析和可视化展示等多个方面的技术。通过完成这个大作业,学生们可以提高对Python编程和网络爬虫的理解和应用能力,同时也可以锻炼数据处理和可视化分析的能力。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [基于python的网络爬虫爬取天气数据及可视化分析python大作业,课程设计报告](https://download.csdn.net/download/m0_65465012/85629892)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [python爬虫大作业](https://blog.csdn.net/m0_57832412/article/details/122221411)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Python爬虫解析笔记.md](https://download.csdn.net/download/weixin_52057528/88258586)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值