python爬虫
小狐狸梦想去童话镇
A fox in pursuit of a rabbit.
展开
-
精简化爬虫流程(爬取+部署)
python爬虫及本地数据接口搭建一、爬取数据1、声明URL和请求头2、发送请求二级目录三级目录本篇博客主要爬取豆瓣电影部分电影数据,以json数据格式保存,并将爬取到的数据部署到本地接口服务器上。使用的技术主要有:requestsjson-servernpm如果还有小伙伴电脑中没有npm安装方式,可以点击此链接进行安装:node.js安装详解一、爬取数据凡是涉及爬取数据,爬取过程无非就是:声明爬取URL,设置请求头发送请求后,服务器获取请求,返回响应解析数据保存数据以下将根据原创 2021-09-12 12:32:10 · 348 阅读 · 0 评论 -
爬虫之模拟登录、自动获取cookie值、验证码识别
爬虫之模拟登录、自动获取cookie值、验证码识别1、爬取网页分析2、验证码识别3、cookie自动获取4、程序源代码chaojiying.pysign in.py1、爬取网页分析爬取的目标网址为:https://www.gushiwen.cn/在登陆界面需要做的工作有,获取验证码图片,并识别该验证码,才能实现登录。使用浏览器抓包工具可以看到,登陆界面请求头包括cookie和user-agent,故在发送请求时需要这两个数据。其中user-agent可通过手动添加到请求头中,而cookie值需要自原创 2021-04-18 21:19:00 · 11475 阅读 · 22 评论 -
爬取三国演义全本内容,保存到TXT文件夹下(requests+bs4)
一、爬取界面分析爬取网站:https://www.shicimingju.com/book/sanguoyanyi.html通过分析,该界面采用静态加载的方式呈现数据,即获取网页源代码可获取相应的数据,在本界面中获取的数据有章节的标题,以及章节内容的链接。在章节内容界面,同样时采用静态加载数据的方式。二、程序源代码import requestsfrom bs4 import BeautifulSoupfp = open('./sanguo.txt','w',encoding='utf-8原创 2021-04-05 21:03:47 · 2471 阅读 · 8 评论 -
爬取校花图片保存到本地文件夹下(requests+re)
一、爬取网站分析爬取目标网址:http://www.521609.com/tuku/shz/通过分析可得,该界面数据使用静态加载方式,所以获取到网页源代码,再对源代码进行数据解析即可(使用re正则表达式进行数据的匹配)。二、程序源代码import re # 正则表达式import os # 创建文件夹import requestsimport urllib.request# 请求头设置headers = { "User-Agent": "Mozilla/5.0 (Wi原创 2021-04-05 20:54:41 · 483 阅读 · 2 评论 -
爬取NMPA化妆品生产许可信息数据,保存到excel中(requests初体验)
一、爬取网页分析爬取网站URL :http://scxk.nmpa.gov.cn:81/xk/1、可以看出,页面采用表格进行数据呈现,在设计爬虫时可以想到,以每一家公司为单位,通过设置数组来存储数据信息。2、打开浏览器抓包工具,对页面数据进行分析,可以看出页面采用ajax请求,返回json数据。二、爬取思路1、首先通过爬取该界面的信息,获取每一家公司的 id 信息。2、获取到id号后,再对具体公司信息进行爬取三、源代码import requestsimport xlwtdef m原创 2021-04-04 17:39:12 · 1329 阅读 · 0 评论 -
爬取某站热门视频的弹幕,并进行弹幕分析
一、B站弹幕分析B站弹幕数据存放在https://comment.bilibili.com/cid.xml中,其中cid是视频的cid号,获取需要爬取的视频的cid号的方法如下:二、页面源代码# -!- coding: utf-8 -!-import requestsimport reimport pandas as pdimport stringimport jiebadef get_data(cid): # 分析网页,并获取网页文件 url = 'https:/原创 2021-03-28 12:54:48 · 2015 阅读 · 3 评论 -
python爬取某乎热榜Top50
python爬取知乎热榜Top501、导入第三方库2、程序的主函数3、正则表达式匹配数据4、程序运行结果5、程序源代码1、导入第三方库import urllib.request,urllib.error #请求网页from bs4 import BeautifulSoup # 解析数据import sqlite3 # 导入数据库import re # 正则表达式import time # 获取当前时间2、程序的主函数def main(): # 声明爬取网页 baseu原创 2021-03-22 20:46:49 · 1070 阅读 · 7 评论 -
爬取某站排行榜Top100的视频数据
python爬取排行榜视频信息1、第三方库导入2、程序运行主函数3、程序运行结果4、程序源代码记得点赞????、收藏呀!!!1、第三方库导入from bs4 import BeautifulSoup # 解析网页import re # 正则表达式,进行文字匹配import urllib.request,urllib.error # 通过浏览器请求数据import sqlite3 # 轻型数据库import time # 获取当前时间2、程序运行主函数爬取过程主要包括声明爬取原创 2021-03-14 15:11:22 · 1870 阅读 · 11 评论 -
爬取后的数据可视化Flask框架、Echarts图表
数据可视化一、前言二、工程介绍1、工程创建2、网页修改3、数据可视化三、页面展示1、首页一、前言前一篇文章(文章链接)中已经将爬取到的数据导入到Sqlist数据库中,接下来是将数据库中的数据可视化,(用到html、css、Flask框架、Echarts图表)选择合适的网页模板进行修改,模板选择下载地址:模板链接二、工程介绍1、工程创建(1)将下载好的模板导入到包含数据库文件(.db文件)的目录下,或者是将数据库文件复制到该网页模板的文件夹中。(2)新建app.py工程,进行Flask框架的编原创 2021-01-24 22:19:04 · 1068 阅读 · 0 评论 -
爬取豆瓣读书Top250,导入sqlist数据库(或excel表格)中
爬取豆瓣读书Top250,导入sqlist数据库(或excel表格)中一、程序源代码import re #正则表达式from bs4 import BeautifulSoup #提取数据import urllib.request,urllib.error #申请访问网页,返回网页源代码import xlwt #保存数据到excel表格import sqlite3原创 2021-01-20 14:58:03 · 1140 阅读 · 4 评论 -
python爬虫爬取个人博客导入sqlite数据库
import refrom bs4 import BeautifulSoupimport urllib.request,urllib.errorimport sqlite3def main(): #声明要爬取的博客网址 baseurl = "https://blog.csdn.net/gets_s/article/list/" #获取数据 datalist = getData(baseurl) #保存数据 dbpath = "blogs.db"原创 2021-01-14 19:22:59 · 709 阅读 · 0 评论 -
50行代码爬取Top500图书导入TXT文档
50行代码爬取Top500图书导入TXT文档import re #正则表达式,进行文字提取import requestsimport jsondef main(page): #声明爬取网址 baseurl = "http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page) #爬取网页内容 datalist = getData(baseurl)原创 2021-01-14 17:32:11 · 268 阅读 · 1 评论 -
java.io.IOException: 不能删除数据库文件
pycharm弹窗,提示java.io.IOException: 不能删除数据库文件(X:\XX\XX.db)启动任务管理器,结束pycharm进程下的插件原创 2021-01-04 14:38:31 · 1093 阅读 · 0 评论 -
python链接sqlite数据库的问题
一、创建数据库创建sqlite数据库的代码import sqlite3conn = sqlite3.connect("test.db")print("成功创建数据库")运行代码后左侧文件栏中会出现“test.db”文件,二、链接数据库视图->工具窗口->Database此时编辑器右侧出现Database,点击添加按钮点击路径选择按钮,找到创建好的“test.db”文件,选中注意:Download下载时,可能会提示下载失败,多试两次总会下载下来此时就将数据库链接好了原创 2021-01-04 12:14:23 · 386 阅读 · 0 评论 -
python爬虫——爬取数据导入excel表
1、导入第三方库requests库、re、html、xlwtfrom urllib import requestimport requestsimport reimport htmlimport xlwt原创 2020-07-25 19:31:04 · 25855 阅读 · 19 评论