旱地有根胡萝卜-CSDN博客

原创新浪微博批量登录获取cookie

新浪微博登录批量获取cookie目的微博的很多数据在查看的时候是需要用户登录之后才可以的，比如web端的微博关键词搜索翻页，不登录的情况下只能查看第一页，而当请求头中携带登录后的cookie时，可以获得翻页后的数据。预登录登录地址：http://my.sina.com.cn/profile/unlogin在用户输入用户名时会将用户名通过加密，通过地址(https://login.sina.com.cn/sso/prelogin.php?entry=account&callback=si

2020-11-19 15:11:51 3617 6

原创 mitmproxy 对接app实现数据截取

mitmproxy 对接app实现数据截取用手机模拟器、无头浏览器来爬取 APP 或网站的数据，mitmpproxy 作为代理可以拦截、存储爬虫获取到的数据，或修改数据。mitmproxymitmproxy 就是用于 MITM 的 proxy，MITM 即中间人攻击（Man-in-the-middle attack）。用于中间人攻击的代理首先会向正常的代理一样转发请求，保障服务端与客户端的通信，其次，会适时的查、记录其截获的数据，或篡改数据，引发服务端或客户端特定的行为.简单来说，mitpro

2021-07-24 19:14:55 584 1

原创 tensorboard打开时报错No dashboards are active for the current data set

tensorboard打开时报错No dashboards are active for the current data set解决办法1，可以尝试修改SummaryWriter(路径) 这里面的路径，如果为logs的时候无论在命令行中使用绝对路径还是相对路径，无论是加引号还是不加引号都不行。2，启动时可以尝试修改指定路径，绝对路径或者相对路径命令行下启动tensorboard --logdir=路径（旧版本）tensorboard --logdir 路径（新版本）我这里没有加引号

2021-07-24 19:13:16 347

原创 mitmproxy 对接app实现数据截取

mitmproxy 对接app实现数据截取用手机模拟器、无头浏览器来爬取 APP 或网站的数据，mitmpproxy 作为代理可以拦截、存储爬虫获取到的数据，或修改数据。mitmproxymitmproxy 就是用于 MITM 的 proxy，MITM 即中间人攻击（Man-in-the-middle attack）。用于中间人攻击的代理首先会向正常的代理一样转发请求，保障服务端与客户端的通信，其次，会适时的查、记录其截获的数据，或篡改数据，引发服务端或客户端特定的行为.简单来说，mitpro

2021-07-14 18:31:55 699

原创 Scrapy中构造post请求

由于在scrapy中使用scrapy.FormRequest方法去进行post请求时特别容易发生各种错误，所以我在进行scrapy的post请求时选用scrapy.Request()方法携带参数进行。1，一般情况下requests模块很容易解决的post请求在scrapy中却是困难重重，坑多小心崴脚requests中post请求2，针对headers中的Content-Type: 'application/json',解决办法：Content-Type: 'applica...

2020-07-01 18:10:04 927

原创 mitmproxy + Appium实现快手数据的抓取

mitmproxy + Appium实现快手数据的抓取mitmproxy1，mitmproxy介绍mitmproxy是一个支持Http和Https的抓包程序，类似于fiddler，Charles的功能，只不过是通过控制台的形式操作。此外，mitmproxy还有两个关联组件:mitmdump:是mitmproxy的命令行接口，利用它可以对接python脚本，实现监听后的处理。mitmweb：是一个web程序，通过它可以清楚的观察到mitmproxy捕获的请求。2，mitmroxy环境安装pi

2020-06-23 13:57:22 3574 5

原创 MySQL整个查询执行过程与优化，引擎间的区别

MySQL整个查询执行过程1.客户端向MySQL服务器发送一条查询请求2.服务器首先先检查查询缓存，如果命中缓存，则立刻返回存储在缓存中的结果。否则进入下一级段3.服务器进行SQL解析、预处理、再由优化器生成对应的执行计划4.MySQL根据执行计划，调用存储引擎的API来执行查询5.将结果返回给客户端，同时缓存查询结果数据库的优化1，优化索引、SQL语句、分析慢查询2，设计表的时...

2020-04-24 16:40:55 255

原创 pandas总结-----2

数据格式转换DataFrame数据类型每一列的数据格式是一致的1、查看格式df['院校名称'].dtype 2、格式转化df['院校名称']=df['院校名称'].astype('str')在进行格式转化时可能会出现报错，这是因为数据格式不一致，可以根据报错信息找到具体出错的数据，对该报错数据进行处理之后再进行格式转化。排序默认排序是根据index进行排序的1，按照投票...

2020-04-22 15:01:52 257

原创 Pandas总结-----1

Pandas数据类型Series一维数组，类似于列表形式1，初始化s= pd.Series([1,3,5,'LOL',6,np.nan,9]）1 12 33 54 LOL5 66 NaN7 9dtype: object2，指定索引第一种方法：s= pd.Series([1,3,5,'LOL',6,np...

2020-04-22 15:01:04 488

原创 Pandas高级处理--数据离散化

高级处理–数据离散化为什么要离散化连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数，离散化方法经常作为数据挖掘的工具。什么是数据的离散化连续属性的离散化就是将连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间的属性值。案例：读取股票的数据data = pd.read_csv("./data/........

2020-04-22 14:58:56 295

原创 Pandas高级处理--缺失值处理

高级处理pandas的缺失值类型应用replace实现数据的替换应用dropna实现缺失值的删除应用fillna实现缺失值的填充应用isnull判断是否有缺失数据NaN如何处理nan判断是否为空pd.isnull(df)-----为空pd.notnull(df)----不为空处理方式1、存在缺失值nan，并且是np.nan a:删除存在缺失值的：dropna(axis=...

2020-04-22 14:58:17 590

原创 Pandas高级处理--合并

高级处理–合并将多张表的数据合并在一起进行分析pd.concat实现数据合并pd.concat([data1, data2],axis=1) 按照行或列进行合并，axis=0为列索引，axis=1为行索引举例：将文件夹下的所有excel文件进行合并并且保存import osimport pandas as pddir = './中职'filenames = os.lis...

2020-04-22 14:57:32 462

原创 pandas结构与简单介绍

pandaspandas介绍2008年开发的专门用于数据挖掘的开源python库以numpy为基础，借力numpy模块在计算方面性能高的优势基于matplotlib，能够简单的画图独特的数据结构为什么使用pandas便捷的数据处理能力读取文件方便封装了matplotlib、numpy的画图和计算pandas使用工具jupyter命令框输入命令：jupyter notebo...

2020-04-22 14:55:54 270

原创数据挖掘（matplotlib各种图的画法）

数据挖掘matplotlib专门用于开发2D图表（包括3D）使用起来及其简单以渐进、交互式方式实现数据可视化1、折线图与基础绘图功能# 显示中文不显示问题from pylab import *mpl.rcParams['font.sans-serif'] = ['SimHei']import matplotlib.pyplot as pltimport random# ...

2020-04-22 14:53:53 1240

原创 sklearn———快速使用

sklearn的快速使用传统的机器学习任务从一开始到建模的一般流程是：获取数据--->数据预处理--->训练建模--->模型评估--->预测、分类。1、获取数据1、导入sklearn数据集　sklearn中包含了大量的优质的数据集，要想使用sklearn中的数据集，必须导入datasets模块：from sklearn import datasets　举例： ...

2020-04-22 14:46:35 334

原创从excel表格中将数据导入到数据库中

从Excel表格中将数据导入到数据库MySQL中以下代码不涉及id的自动生成与表格的外键查询# coding=utf-8import xlrdimport pymysql# 打开数据所在的工作簿，以及选择存有数据的工作表book = xlrd.open_workbook("陕西省VR.xlsx")sheet = book.sheet_by_name("Sheet1")# 建立一个M...

2020-04-22 14:41:37 396

原创 Lniux常用命令

Lniux常用命令powered by 曹剑楠1、启动终端ctrl+alt+t2、字体缩放ctrl+shift+'+'/ctrl+'-'3、查看当前目录下的文件信息ls[options]: -l : 以列表形式显示 -a : 显示隐藏文件 -h ：显示文件大小4、查看当前文件路径pwd5、创建文件touch6、创建文件夹mkdir...

2020-04-22 14:39:20 329

原创 Scrapy框架运行机制

Scrapy框架Scrapy各组件功能1，scrapy Engine(引擎)：负责Spider、ItemPipline、Downloader、Scheduler中间的通讯，信号，数据的传递等。2，Scheduler(调度器)：负责接收引擎发送过来的request请求，并按照一定的方式进行整理排列、入队，当引擎需要时交还给引擎。3，Downloader(下载器)：负责下载scrapy Eng...

2020-04-22 14:37:55 1367

原创 Mysql操作命令(基础)

Mysql操作命令数据库登录退出命令1，登录命令连接本机MySQLmysql root -u root -p连接远程主机的MySQL 远程主机IP：110。110.110.110 用户名：root 密码：abcd123mysql -h110.110.110.110 -u root -p abcd1232，退出Mysqlexit3，修改密码格式：mysqladmin...

2020-04-22 14:36:08 296 1

原创大众点评爬虫(Python)

大众点评爬虫文档一，开发环境1， Scrapy-redis爬虫框架2， pycharm开发工具二，项目创建1，创建项目：scrapy startproject +项目名称2，创建爬虫：scrapy genspider +爬虫文件名 + 允许爬取的网站域名三，修改配置文件1，在配置文件settings.py文件中添加USER_AGENT参数，不添加UA参数无法获取到页面，先复制使...

2019-11-08 15:55:31 3077

L_huiger的博客

原创新浪微博批量登录获取cookie

原创 mitmproxy 对接app实现数据截取

原创 tensorboard打开时报错No dashboards are active for the current data set

原创 mitmproxy 对接app实现数据截取

原创 Scrapy中构造post请求

原创 mitmproxy + Appium实现快手数据的抓取

原创 MySQL整个查询执行过程与优化，引擎间的区别

原创 pandas总结-----2

原创 Pandas总结-----1

原创 Pandas高级处理--数据离散化

原创 Pandas高级处理--缺失值处理

原创 Pandas高级处理--合并

原创 pandas结构与简单介绍

原创数据挖掘（matplotlib各种图的画法）

原创 sklearn———快速使用

原创从excel表格中将数据导入到数据库中

原创 Lniux常用命令

原创 Scrapy框架运行机制

原创 Mysql操作命令(基础)

原创大众点评爬虫(Python)

百度指数自定义关键词获取工具

微博指数自定义关键词获取工具

空空如也