自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 fiddler的使用方法总结

Fiddler是位于客户端和服务器端HTTP代理,可以监控所有的http和https。浏览器访问网站都是基于B/S架构的,这个时候我们连接上fiddler,所有服务器发送到浏览器的资源都会被我们截获。fiddler的方法如下。 如何将请求报文保存到本地? ...

2019-11-10 16:55:59

阅读数 100

评论数 0

原创 SVNClient的使用方法

首先安装SVNClient,然后需要有SVN的账号和密码,还需要有远程主机的ip地址和账号密码。这样就可以连接到远程主机了。 但是如何才能看到远程可视化界面呢? 然后ctrl+R,输入mstsc,这样就会出现下面的界面,在计算机的后面写入远程主机的ip ,然后按照提示输入账号和密码,然后按...

2019-11-09 14:47:37

阅读数 192

评论数 0

原创 放弃使用phantomJS吧,新版的无界面好用多了

selenium放弃使用phantomJS,需要使用无界面的话使用下面的方法。在使用过程中亲测,phantomJS会被防住,但是使用下面的方法不会被防。 使用下面这种方法不让访问 from selenium import webdriver url = 'https://ww...

2019-11-09 14:06:10

阅读数 27

评论数 0

原创 利用tensorflow实现线性回归

线性回归原理 (1)根据数据构建线性模型 (2)计算损失--均方误差损失 (3)直接求解、或者梯度下降算法进行优化损失,来获取最优的 w 和 b (4)利用 w 和 b 对新的数据进行预测 代码实现如下 import tensorflow as tf #面向对象 class MyL...

2019-09-23 22:57:47

阅读数 34

评论数 0

原创 tensorflow的变量

变量的本质 变量是一个内存空间的别名 创建变量op import tensorflow as tf init_val = tf.random_normal( dtype=tf.float64, ...

2019-09-23 22:53:03

阅读数 17

评论数 0

原创 tensorflow的tensor张量

'dtype=tf.数据类型' 来改变张量的数据类型 import tensorflow as tf a = tf.constant(3.0,dtype=tf.int32) b = tf.constant([3.0,4.0],dtype=tf.float64) c = ...

2019-09-23 22:17:28

阅读数 19

评论数 0

原创 tensorflow的会话

什么是会话? 一个运行 TensorFlow operation 的类。tensorflow的底层是c++实现的,而上层调用使用的是python,所以在使用的时候中间环节需要使用到会话来作为中介,使用python来调用c++代码。 会话完整流程 1.会话初始化 2.会话执行op 3.关...

2019-09-23 21:21:44

阅读数 41

评论数 0

原创 tensorflow图的可视化

首先需要序列化数据 数据序列化的代码如下,第一个参数是序列化数据要存放的位置,第二个参数是需要被序列化的图 import tensorflow as tf #op名称在op指令空间内是唯一的,如果op名字相同,会给后面的一次加索引名称,可以通过name修改op名称 a = tf.cons...

2019-09-23 20:24:27

阅读数 145

评论数 0

原创 tensorflow数据流图

数据流图如下所示 什么是数据流图(Data Flow Graph)? 官方的解释为:数据流图用“结点”(nodes)和“线”(edges)的有向图来描述数学计算。“节点” 一般用来表示施加的数学操作,但也可以表示数据输入(feed in)的起点/输出(push out)的终点,或者是...

2019-09-23 20:09:14

阅读数 628

评论数 0

原创 金融量化交易案例

什么是量化交易? 量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史据中海选出能带来超额收益的多种“大概率”事件以制定策略。它极大的降低了市场波动给投资者情绪带来的影响,避免在市场极度狂热或者悲观的情况下做出非理性的投资决策。 策略分析 我们想要的结果就是我们在...

2019-09-23 09:30:50

阅读数 161

评论数 0

原创 基于逻辑回归的癌症预测案例

加载数据给数据中的每一列起列名称 #把数据的头置为空,因为要自己设置列名称 data = pd.read_csv('./breast-cancer-wisconsin.data',header=None) # print(data) #增加列名 columns = [&...

2019-09-20 22:43:08

阅读数 44

评论数 0

原创 基于线性回归的波士顿房价预测

波士顿数据集在sklearn中自带,使用的时候引入就可以直接使用 from sklearn.datasets import load_boston#加载波士顿数据集 获取特征值、目标值和列名称 数据以字典的形式保存,获取的时候需要按照字典的方式提取数据 feature = bos...

2019-09-20 22:14:04

阅读数 392

评论数 0

原创 基于朴素贝叶斯的书籍评价分类

首先需要将书籍的信息导入进来 data = pd.read_csv('./data.csv',encoding='ansi') 将目标值转化为数值类型 好评的转化0,差评的转化为1 data.loc[data.loc[:,'评价&...

2019-09-20 20:41:25

阅读数 99

评论数 0

原创 词汇的重要程度统计

词汇的重要程度统计可以统计出词汇在文章中的重要程度,从而对文章的类型和其他特征可以做出相应的判断 from sklearn.feature_extraction.text import TfidfVectorizer content = ['Hong Kong residents...

2019-09-19 22:08:35

阅读数 28

评论数 0

原创 文章中的英文和汉语词数出现次数的统计

对英文词语的统计如下 import pandas as pd import numpy as np from sklearn.feature_extraction.text import CountVectorizer #需要处理的文字 content = ['Hong Kong...

2019-09-19 21:41:06

阅读数 44

评论数 0

原创 KNN算法手写字识别案例

实验前准备如下 手写字分别存储在两个文件中,一个是训练集文件,一个是测试集文件。 两个文件夹下的txt文件命名格式是,下划线前面的数字代表文本内存储的文字内容,下划线后面的数字代表是第几个 如:1_12.txt代表文件内存储的内容为手写字1,这是存储手写字1的第12个文件。 ...

2019-09-19 21:16:41

阅读数 54

评论数 0

原创 KMeans对NBA球员聚类案例分析

NBA球员数据的格式如下 本文的目的主要是对NBA球员的数据进行分析,通过分析数值数据判断球员的表现,进而可以研究球员在赛场上是属于哪一类球员,下面是对结果进行雷达图的绘制 对球员情况分析,并画出雷达图,代码和结果如下: import pandas as pd import nu...

2019-09-19 19:25:34

阅读数 585

评论数 0

原创 KNN算法原理与自实现

KNN英文全称K-Nearest Neighbors ,中文名称为K最近邻算法,它是由Cover和Hart在1968年提出来的 KNN算法原理 1. 计算已知类别数据集中的点与当前点之间的距离; 2. 按照距离递增次序排序; 3. 选择与当前距离最小的k个点; 4. 确定前k个点所在...

2019-09-18 19:29:38

阅读数 56

评论数 0

原创 kmeans算法示例--航空公司数据分析

航空公司的excel表中的各个数据对应的含义如下 航空价值分析步骤如下 航空数据分析雷达图如下 解决方案 步骤如下 了解航空数据的含义,观察窗口就是时间段 丢弃票价为空的数据 保留票价大于0,折扣不为0,飞行里程大于0的数据,---花钱坐飞机 筛选特征时,...

2019-09-18 15:55:14

阅读数 102

评论数 0

原创 超市用户的k-means聚类处理

导入超市用户的数据 import pandas as pd from sklearn.preprocessing import StandardScaler #标准差标准化 com = pd.read_csv('./company.csv',encoding='...

2019-09-18 11:07:30

阅读数 83

评论数 0

原创 k-means原理实现

原理如下: 代码如下: import pandas as pd import numpy as np import matplotlib.pyplot as plt def build_data(): ''' 准备数据 :ret...

2019-09-17 22:29:27

阅读数 25

评论数 0

原创 银行坏账数据分析

加载数据 import pandas as pd import numpy as np data = pd.read_csv('loan.csv',encoding='ansi') print(data) 好坏用户,0代表信用好用户,1代表...

2019-09-17 22:22:02

阅读数 42

评论数 0

原创 数据离散化

使用get_dummies将类别型数据转化为哑变量矩阵 加载数据,并将数据离散化 detail = pd.read_excel('./meal_order_detail.xlsx') # print(detail.loc[:,'dishes_name...

2019-09-17 21:15:12

阅读数 30

评论数 0

原创 标准化数据

离差标准化 离差标准化,将数据转化到0到1之间。离差标准化容易受到异常点影响,不常用。 def min_max_sca(data): ''' 离差标准化 :param data:传入的数据 :return:标准化之后的数据 ...

2019-09-17 10:31:45

阅读数 243

评论数 0

原创 dataframe数据拼接

准备数据 import pandas as pd data_1 = pd.read_excel("concat数据拼接.xlsx",sheetname=0) data_2 = pd.read_excel("concat数据拼接.xlsx",sheet...

2019-09-16 22:53:13

阅读数 218

评论数 0

原创 数据填充

excel中sheet1和sheet2的数据如下 使用combine_first来进行数据合并 import pandas as pd # 加载数据 data_1 = pd.read_excel("./数据填充.xlsx",sheetname=0) da...

2019-09-16 21:50:18

阅读数 23

评论数 0

原创 去重与去空案例

数据的去重案例 drop_duplicates,只能按列不能按行去重 去除数据里面所有NA ,或者数据单一的列。使用的方法为循环,对所有的列进行判断。 columns = detail.columns #取出所有的列 drop_list = [] for column in colu...

2019-09-16 21:33:26

阅读数 30

评论数 0

原创 数据的相关性

对数据进行去重 加载数据 detail = pd.read_excel("./meal_order_detail.xlsx") print("detail :\n",detail) 对amounts 进行去重,拿到菜品的单价数据来评估这家餐厅的...

2019-09-16 20:34:10

阅读数 18

评论数 0

原创 异常值处理

根据正态分布处理异常数据 根正据态分布得出99.73%的数据都在(u-3sigma,u+3sigma)之间,认为超出这个区间的值为异常值,我们按照这个原则提出异常值。 设置函数返回正确的数据 def three_sigma(data): '''...

2019-09-16 19:22:07

阅读数 29

评论数 0

原创 缺失值处理方法总结

加载数据 import pandas as pd import numpy as np #加载数据 data = pd.read_excel('./qs.xlsx') print(data) 如何确定数据里包含缺失值---缺失值检测 print(data...

2019-09-16 16:14:33

阅读数 57

评论数 0

原创 pandas连锁超市数据处理案例

加载数据 import pandas as pd #加载数据 order = pd.read_csv('./order.csv',encoding='ansi') print(order) print(order.columns) 哪些类别的商...

2019-09-12 22:16:53

阅读数 45

评论数 0

原创 pandas透视表与交叉表

pivot_table透视表 透视表是一种plus版的分组聚合,透视表的传入数据的参数指标如下: data是dataframe数据 values是最终统计指标针对的对象 index 按照index进行行分组 columns 按照columns进行分组 aggfunc 是对主题进行什么指标的统计...

2019-09-12 21:47:24

阅读数 21

评论数 0

原创 pandas计算店家的每日营业额示例

获取时间day属性,生成一个新的列 detail.loc[:,'day'] = [i.day for i in detail.loc[:,'place_order_time']] 新建价格的列 detail.loc[:,'pric...

2019-09-12 21:03:31

阅读数 61

评论数 0

原创 pandas分组聚合

加载数据 import pandas as pd import numpy as np users = pd.read_excel('./users.xlsx') groupby指定分组的列可以是单列,也可以是多列 根据班级分组,统计学员的班级的平均年龄 r...

2019-09-12 20:45:34

阅读数 53

评论数 0

原创 pandas时间数据

关于时间的数据类型 datatime64[ns]是numpy中的数据类型,Timestamp是pandas默认的时间点类型,DatetimeIndex是pandas默认支持的时间序列结构。 可以通过to_datatime或者DatetimeIndex将时间数据转化成pandas默认支持的时...

2019-09-12 19:40:42

阅读数 20

评论数 0

原创 pandas数值型数据和非数值型数据统计

对单列数据进行统计 加载数据 import pandas as pd detail = pd.read_excel('./meal_order_detail.xlsx') 常见的数值统计的方法如下: 统计detail中的,单价相关指标 print('...

2019-09-12 11:42:10

阅读数 490

评论数 0

原创 matplotlib饼图的绘制

饼图的适用场景 统计部分与部分,以及部分与整体的关系 代码和参数如下 import numpy as np plt.rcParams['font.sans-serif']='SimHei' plt.rcParams['axes.un...

2019-09-12 08:43:40

阅读数 18

评论数 0

原创 matplotlib直方图的绘制

设置20个人的体重数据 weights = [] for i in range(20): weights.append(random.randint(40, 80)) print(weights) weights = np.array(weights) 设置bins的间隔 ...

2019-09-12 08:43:28

阅读数 19

评论数 0

原创 matplotlib柱状图的绘制

直方图与柱状图的区别 直方图:数据的分布情况,横轴是数据范围,纵轴是落在范围内的频数。 柱状图:统计类别数据的数量,横轴是数据的类别,纵轴是类别的频数,适用于少量的数据。 柱状图之间有间隙 关于直方图 少量数据的类别数量的比较,柱状图不需要设置图例。 柱状图的绘制如下 代码如...

2019-09-11 21:56:24

阅读数 28

评论数 0

原创 matplotlib散点图的绘制

散点图应用场景 1、类折线形的散点图描述走势 2、聚集的散点图描述点与点的相关性 散点图绘制的要求 绘制散点图,要求比折线图严格,x,y维数和个数必须一致,散点图要求一对一,一个x对应一个y,不可以对应多个。 散点图的绘制如下 import numpy as np impor...

2019-09-11 21:29:20

阅读数 87

评论数 0

提示
确定要删除当前文章?
取消 删除