爬虫
Hou_Monkey
你若盛开 清风徐来
展开
-
美女图片爬虫实例 全代码 爬虫
好久没有发表东西了 发表一篇之前的吧 图片的爬取储存 上代码'''案例:空姐网相册爬虫(bs4)http://www.kongjie.com/home.php?mod=space&do=album&view=all&page=1爬取相册照片,用uid + picid +'.jpg'命名,保存到images目录下'''import requestsfrom bs4 import BeautifulSoupimport timeimport randomimpo原创 2020-08-25 10:35:15 · 2357 阅读 · 1 评论 -
有道翻译 爬虫 讲解 和 代码
好久没写过关于爬虫的的文章了 现在针对于爬虫大部分涉及到js 加密 我写一个简单的关于js问题 有道翻译 这涉及js简单的加密 现在我给大家简单简述 这个流程 如下图所示 图一中的 data中这几个字段 肯定猜想是加密了 然后 复制sign字段 找到js 相关代码 图二 中的方法 然后得到数据 断点调试 得到想要的猜想数据 … 代码如下:#!/usr/bin/python3.7# -*- coding: utf-8 -*-# @Author : Monkey# @Software: PyC原创 2021-06-07 11:40:09 · 595 阅读 · 0 评论 -
python 斗鱼弹幕的爬取一(selenium)
针对弹幕的爬取我们如果只需要获取看到的网页里面的而数据,使用selenium就能实现,对于直播平台来说,往往有第三方平台api让你获取数据(可以获取发弹幕,发弹幕者的名字礼物等等,这需要客户端向弹幕服务器发送登录请求,心跳信息的发送等等)今天只获取弹幕信息储存到txt文件中,上代码,上图片#!/usr/bin/env python3# _*_ coding: utf-8 _*_# auther houimport timeimport randomfrom selenium import web原创 2020-05-27 00:32:54 · 1048 阅读 · 5 评论 -
python 爬取天猫店铺商品评论
在两三年之前天猫,淘宝,美团等这类的没有加密,很容易采集到数据,刚写了个爬取天猫评论时候,发现不能获取json类的数据,用了所以我用selenium,效果还不错,我们创建对象后,会让我们登录(如下图所示),开始我的思路是点击让它关闭,但是获取不到 关闭 (看源代码想到的iframe定位),又换了一种方式,使用execute_script()方法添加属性display:none ; 本篇数据没储存(可以参考之前博客写的储存) 不说太多 上图上代码from selenium import webdrive原创 2020-05-26 00:37:08 · 845 阅读 · 2 评论 -
python 爬虫 网易云音乐 抓取
网络中音乐的爬取对于爬虫来说 不是vip大部分是url拼接就能得到,抓取中不同的一个首页中url中详情页中网页结构不同提取方式也有所不同…直接上代码import requestsfrom bs4 import BeautifulSoupimport urllib.requestheaders = { 'Referer': 'http://music.163.com/', 'Host': 'music.163.com', 'User-Agent': 'Mozilla/5.0原创 2020-05-22 16:33:26 · 3594 阅读 · 10 评论 -
python 爬虫中selenium 爬取数据 csv储存思路加代码
爬虫这行运到一点加密问题就难了一b,加密处理要么破解,要么模仿人为操作,下面给大家分享下简单的selenium的一个小项目进入网站首页 会出现这类的提示,如果用平常不能得到想要的数据文本,要模仿人为操作点击确定按钮,最终获取是文本中企业数据内容直接上代码 代码中有time间隔睡眠等待数据加载 其实最好用WebDriverWait来等待加载(自己写的小demo 这些东西了解下流程)from selenium import webdriverimport timeimport random原创 2020-05-19 10:31:08 · 1845 阅读 · 2 评论 -
python 在爬虫中怎样把数据添加到excle样式中
首先导入xlwt …算了直接上代码吧import xlwtworkbook = xlwt.Workbook(encoding='utf-8')#创建 workbook 即新建 excel 文件/工作簿,sheet1= workbook.add_sheet('my_worksheet') #创建工作表,如果想创建多个工作表,直接在后面再 add_sheetsheet1.write(0,0,Value) #写入数据,第一个参数表示行,从 0 开始,第二个参数表示列从 0 开始,第三个表示插入的数原创 2020-05-13 17:24:16 · 512 阅读 · 0 评论 -
在Scrapy中怎样把数据储存到Mysql 或者Redis中
首先在setting中配置redis基本信息(如果不设置,直接定义也行) 和ITEM_PIPELINES信息REDIS_HOST = 'localhost'REDIS_PORT = 6379REDIS_DB_INDEX = 0REDIS_PASSWORD =""ITEM_PIPELINES = { 'xiaoshuo.pipelines.XiaoshuoPipeline': 200, 'xiaoshuo.pipelines.MysqlPipeline': 300, 'x原创 2020-05-13 16:54:37 · 659 阅读 · 0 评论 -
python中csv格式转换为excle格式
# csv==> excel 在转化过程中使用相对路径可能会报错 根据提示安装p开头的就可以个 绝对路径也可以# 在使用下面先导入import pandas as pd# 读取文件里边D:\PycharmProjects\last_new_lizi.csv内容df = pd.read_csv(r'D:\PycharmProjects\last_new_lizi.csv',...原创 2020-01-13 14:50:12 · 2275 阅读 · 0 评论 -
python中把图片 或者 数据存储到本地 用csv方式储存
1.open 打开文件 写入文件 关闭文件f = open(r"D:\Image\1.jpg",'wb') #eg:一个图片下载保存f.write(urllib2.urlopen(url).read()) # url的图片链接f.close()2.with 自带close()效果# 请参考上篇爬虫 音乐爬取with open("D:\\Music\\{}.mp3".fo...原创 2020-01-13 14:37:21 · 3574 阅读 · 0 评论 -
python基础爬虫 视频的下载
对于python爬虫 对于短视频爬取的案例 解析案件如下:url 为 https://www.pearvideo.com/# -*- coding: utf-8 -*-import requestsimport re# srcUrl="(.*?)",vdoUrl# https://video.pearvideo.com/mp4/short/20200108/cont-1640135...原创 2020-05-13 17:55:15 · 421 阅读 · 0 评论 -
爬取图片下载保存 例子详解 代码与注释
爬虫对于图片的爬取是基础 话不多说直接上代码加注释url获取时候 找到图片f12 选左上角的箭头 按下 然后选你想要图片 下面代码 找到src="…" 这才是图片真正的路径import requests # 第三方库 使用前要安装好img_content = requests.get(url="https://timgsa.baidu.com/timg?image&...原创 2020-01-16 10:50:48 · 348 阅读 · 0 评论 -
python 爬取龙岭迷窟视频 对于视频格式m3u8 下载多个ts文件 合并成MP4
龙岭迷窟视频的爬取 对于视频的爬取大多数没有直接给出MP4链接 大多数是ts文件合成1 按f12 找到m3u8下载 下面代码get_m3u8_save函数中保存2 找到ts中url把提取m3u8 文件中的进行拼接 如下面get_ts_url函数3下载ts文件下面代码 download函数 本人下载ts截图如下:合并 成MP4 格式 copy /b D:\PycharmProje...原创 2020-04-30 21:53:51 · 2051 阅读 · 2 评论 -
python 如果遇到爬取解析到得文本为 style="display: none" 没有找到相关内容该怎样解决 修改文本属性获取新的内容
在有的爬取网页内容时候有时候遇到text得内容为空 如下图所示 这应该就是display:none的问题,遇到这样问题要改变css的style中的内容 这需要pyquery这个库下面图是原始f12中的disply:block 显示内容 所以 爬取时候 内容一的到实际的内容为准 也就是requests.get(url = " ",headers = " ").text不说太多上代码 下面有详...原创 2020-05-01 20:22:02 · 7081 阅读 · 6 评论 -
python 爬取百度地图api数据
在想要爬取百度地图中的店铺数据时候往往是加密的 在开发平台中申请自己的账号主要在爬取中需要AK验证 直接上代码代码中只获取店铺名和电话 …其他注释 需要的自己调整 最终结果如图所示import requestsimport jsonimport pandas as pddef request_hospital_data(): ak=" " # 换成自己的 ...原创 2020-05-03 11:47:20 · 3417 阅读 · 5 评论