自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bus_lupe的博客

平凡的小狗

  • 博客(12)
  • 收藏
  • 关注

原创 聚类

聚类概述聚类常见算法划分法(分裂法) kmeans层级分析法密度分析法聚类三发kmeans算法概述随机选择k个点作为聚类中心计算各个点到这k个点的距离将对应的点聚到与他最近的这个聚类中心重新计算聚类中心比较当前聚类中心与前一次聚类中心,如果是同一个点,得到聚类结果,若为不同的点,则重复2-5kmeans算法实战# kmeans算法# 通过程序实现录取学生的聚类...

2019-10-23 23:00:25 294

原创 决策树

import pandas as pdimport osfrom sklearn.tree import DecisionTreeClassifier as DTCfrom sklearn.tree import export_graphvizBASE_DIR = os.path.dirname(os.path.abspath(__file__))fname = os.path.join...

2019-10-22 23:08:33 96

原创 数据分析错误集

ValueError: Unknown label type: ‘unknown’dtc.fit(x, y.astype('int'))

2019-10-22 23:07:16 140

原创 Python数据分类实现过程

首先明确需求并对数据进行观察其次,确定算法确定步骤编程实现常见的分类算法KNN算法贝克斯方法决策树人工神经网络支持向量机(SVM)KNN算法实现步骤处理数据数据向量化计算欧几里得距离根据距离进行分类手写体数字识别训练数据测试数据pillow模块处理图片...

2019-10-18 22:38:56 1221

原创 数据建模的概述

数据建模指的是对现实世界各类数据的抽象组织,建立一个合适的模型对数据进行处理。在数据分析与挖掘中,我们通常需要根据一些数据建立起特定的模型,然后处理。模型的建立需要依赖于算法,一般,常见的算法有分类、聚类、关联、回归等。这一周我们主要搞定关联算法。...

2019-10-17 08:53:12 232

原创 在TqSdk任务中驱动Gui消息循环

import asyncioimport sysimport PySimpleGUI as sgfrom tqsdk import TqApiloop = asyncio.get_event_loop()api = TqApi(loop=loop)quote_a = api.get_quote('SHFE.rb1910')quote_b = api.get_quote('SHFE....

2019-10-15 22:50:08 389

原创 在两个线程中分别运行Gui和TqSdk

wt不断的获取最新数据,更新值,quote_a 、quote_b 引用对应的值也会不断变化。Event Loop大循环中,不断刷新gui上面的文本,显示最新数据与差价。#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = 'limin'import threadingimport PySimpleGUI as sgfro...

2019-10-15 22:32:41 447

原创 文本相似度计算

相似度计算的步骤读取文档对要计算的多篇文档进行分词对分词后的文档整理成指定格式,方便后续计算计算出词语的频率【可选】对频率低的词语进行过滤通过语料库建立词典加载要对比的文档将要对比的文档通过doc2bow转换为稀疏向量对稀疏向量进行进一步处理,得到新语料库将新语料库通过tf-idf进行处理,得到tf-idf通过token2id得到特征数稀疏矩阵相似度,从而建立索引得到最...

2019-10-11 22:05:56 182

原创 文本挖掘

pip install jieba分词模式import jiebasentence = '我喜欢上海东方明珠'# 模式:全模式cut_all=True;精准模式cut_all=False;搜索引擎模式;# cut(句子,模式)# words = jieba.cut(sentence, cut_all=True)words = jieba.cut(sentence, cut_all...

2019-10-10 14:57:41 153

原创 数据规约

属性规约与数值规约概述属性规约数值规约主成分分析属性规约之主成分分析PCA算法from sklearn.decomposition import PCAimport pymysqlimport pandas as pddb = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='123456', d...

2019-10-10 10:00:09 318

原创 数据变换

简单变换数据变换的目的是将数据转化为更方便分析的数据。简单变换通常使用函数变换的方式进行,常见的函数变换包括:开放、平方、对数等。数据规范化离差标准化–消除量纲(单位)影响以及变异大小因素的影响。(最小-最大标准化)x1 = (x - min) / (max - min)标准差标准化–消除单位影响,以及变量自身变异影响。(零-均值标准化)x1 = (x - 平均数) /...

2019-10-10 08:40:25 2341

原创 数据探索与数据清洗概述

数据探索的目的是及早发现数据的一些简单规律或特征,数据清洗的目的是留下可靠的数据,避免脏数据的干扰。这两者没有严格的先后顺序,经常在一个阶段进行。数据探索的核心数据探索的核心是:数据质量分析(跟数据清洗密切联系)数据特征分析(分布、对比、周期型、相关性、常见统计量等)数据清洗实战数据清洗可以按如下步骤进行:1.缺失值处理(通过describe与len直接发现、通过0数据发现)2...

2019-10-02 17:49:36 807

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除