![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spiders
情牵机电
这个作者很懒,什么都没留下…
展开
-
爬虫实战:bilibili番剧排名爬取并数据可视化
爬取bilibili的国创动漫的追番人数排行番剧,爬取该网页的番剧信息和各自番播放网页里的简介信息后,将数据存储到Excel和Database,最后通过网页将数据可视化。1、爬取网页、数据解析、数据保存from bs4 import BeautifulSoupimport reimport xlwtimport urllib.request,urllib.errorimport sqlite3from io import BytesIOimport gzipimport timeimpo原创 2020-12-27 16:42:15 · 5015 阅读 · 4 评论 -
爬虫学习案例3:数据可视化
数据可视化利用Flask框架将爬虫得到的数据展示在网页中,更为直观。以案例1中得到的数据为例进行可视化学习。1、导入模块from flask import Flask,render_templateimport sqlite3#数据库import os.path#文件路径2、首页路由#首页@app.route('/')def index(): return render_template("index.html")@app.route('/index')def index1(原创 2020-12-27 13:21:18 · 1829 阅读 · 3 评论 -
爬虫学习案例2:异步爬取
异步爬取异步爬取即爬取动态URL的数据,在网页源代码中找不到需要的数据只有在F12控制台中通过查看资源请求包才能找到对应的数据了URL。一般动态网页采用AJAX框架,只有在访问时才从服务器获取数据不会提前全部静态展示。 其工作原理如下图:下面以NHK新闻网为例,其URL为link。查看源代码发现不能找到新闻内容,在F12控制台中刷新网页找到含新闻内容的资源包,其中第二页URL为link。以该URL进行爬取数据。1、导入模块import jsonimport reimport urllib.re原创 2020-12-27 13:17:59 · 625 阅读 · 0 评论 -
爬虫学习案例1:同步爬取
同步爬取同步爬取即爬取静态URL的数据,下面以爬取豆瓣Top250电影排行榜的所有电影信息为例,URL为 link。1、导入模块from bs4 import BeautifulSoup #网页解析,获取数据import re #正则表达式,进行文字匹配import xlwt #进行Excel操作import urllib.request,urllib.error #指定URL,获取网页数据import sqlite3 #进行SQLite数据库操作2、定义主函数def main原创 2020-12-26 21:05:48 · 485 阅读 · 1 评论