数据挖掘
caymant
码农 Ai追随者 文艺
展开
-
python和mysql交互详解---- (pandas)读csv文件,executemny批量写入db中
主要用到pandas从csv文件中抓数据,pandas抓出的数据是dataframe格式的,而且有的可能是Nan,抓出df格式的数据需要再处理,才能批处理的写入数据库中,executemany批出的格式不能是df,这里处理成list import pymysql import codecs import pandas as pd # 打开数据库连接 def get_conn(): conn...原创 2018-10-11 17:32:01 · 935 阅读 · 0 评论 -
Pandas 笔记(一)Pamdas简介和常用功能
一、常用功能 包导入: 一般我们需要做如下导入,numpy和pandas一般需要联合使用,并且最好导入的顺序是pandas先导入,不然有时候会报错(为啥报错还有待研究): import pandas as pd inport numpy as np 数据导入:pd.read_csv(filename):从CSV文件导入数据 pd.read_table(filename):从限定分隔符的文本文件...原创 2018-09-28 16:07:19 · 1433 阅读 · 0 评论 -
python与mysql交互详解二
主要实现从mysql数据库中取出想要的数据进行平均值计算,然后将取出的数据按特定字段分组后重新插入数据库中。复杂的问题可以先从简单点一步一步实现,拆解完成。 import pymysql from pymysql import * import pandas as pd def select_data(sql, dict_data=True, host='xx', ...原创 2018-11-01 17:56:17 · 200 阅读 · 0 评论 -
检验数据是否符合正太分布
import numpy as np import matplotlib.pyplot as plt import scipy.stats as stats import pandas as pd # additional packages from statsmodels.stats.diagnostic import lillifors def check_normality(): ...原创 2018-11-02 10:31:36 · 1311 阅读 · 0 评论 -
计算两个URL的相似度 编辑距离和docsim
在教育领域,追踪学习者的学习行为活动是分析学习者学习的一种有效的处理方式,这里处理一批url,通过处理URL形成相似度矩阵,再进一步进行聚类,及以后的相关处理。 计算两个文本间(这里的文本指两个url)的相似度有多种方法,在NLP领域一版处理文本文件相似度,常用docsim/doc2vec/LSH比较两个文档之间的相似度,通过jieba分词然后使用上面的相关算法计算某一句话或者某一段话在文本中和它...原创 2018-12-11 10:05:12 · 1341 阅读 · 0 评论