![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
J_Xiong0117
一枚终生学习的算法工程师
展开
-
知识图谱:【数据清洗工具flashtext(五)】——flashtext使用示例
文章目录关键字提取删除关键字函数封装示例pyahocorasick版关键字提取from flashtext import KeywordProcessorkeyword_processor = KeywordProcessor()keyword_processor.add_keyword('Big Apple', 'New York')keyword_processor.add_keyword('Bay Area')keywords_found = keyword_processor.extra原创 2021-12-20 11:50:48 · 420 阅读 · 0 评论 -
知识图谱:【数据清洗工具flashtext(四)】——flashtext函数
构建Trie字典:KeywordProcessor新增关键词:add_keyword关键词抽取:extract_keywords关键词替换:replace_keywords删除关键词:remove_keywords示例:from flashtext import KeywordProcessorkeyword_processor = KeywordProcessor(case_sensitive=False)keyword_processor.add_keyword(one_kw,).原创 2021-12-20 11:47:10 · 259 阅读 · 0 评论 -
知识图谱:【数据清洗工具flashtext(三)】——flashtext原理
flashtext是一种基于Trie字典数据结构和Aho Corasick的算法。Trie字典构建flashtext首先将所有相关的关键字作为输入,使用这些关键字建立一个trie字典(start和eot分别是字符序列的开始标签和结束标签):搜索对于输入字符串或文档,对字符进行逐个遍历。当在文档中有字符序列<\b>word<\b>匹配到字典中的word时,则认为这是一个完整匹配,将匹配到的字符序列所对应的标准关键字进行输出:ps.示例中,匹配到的字符序列显示为绿色,没有匹原创 2021-12-20 11:41:11 · 942 阅读 · 0 评论 -
知识图谱:【数据清洗工具flashtext(二)】——flashtext效率测试
Regex Vs flashtext用于关键字搜索的正则表达式(Regex)是一种非常灵活和有用的模式匹配方式。1)正则表达式(Regex)在一个10k的词库中查找15k个关键词的时间差不多是0.165s,但flashtext只需要0.002s(flashtext的速度约为regex的82倍)。2)随着所需处理(检索/替换)的字符串越来越多,正则表达式的处理时间近乎线性增加,而flashtext近乎一个常量。...原创 2021-12-20 11:38:19 · 289 阅读 · 0 评论 -
知识图谱:【数据清洗工具flashtext(一)】——flashtext简介
大规模数据清洗的利器flashtext算法是一个高效的字符串搜索和替换算法,该算法的时间复杂度不依赖于搜索或替换的字符的数量,比一般的正则匹配法快很多,且flashtext算法被设计为只匹配完整的单词。比如在数据集{Machine,Learning,Machine Learning}中,一个文档“I like Machine Learning”,则flashtext算法只会优先去匹配“Machine Learning”,因为这是最长匹配。参考链接官方文档:https://flashtext.read原创 2021-12-20 11:33:37 · 1098 阅读 · 0 评论 -
数据分析——多变量回归:预测红酒口感
文章目录1.Python代码2.代码说明1.Python代码#!/usr/bin/env python3# encoding: utf-8'''@file: WineCV.py@time: 2020/6/13 0013 18:51@author: Jack@contact: jack18588951684@163.com'''import urllib.requestimport numpy as npfrom sklearn import datasets, linear_mod原创 2020-06-13 19:19:56 · 1097 阅读 · 0 评论 -
数据分析——“红酒口感”数据集最佳模型选择
文章目录1.Python代码2.结果分析1.Python代码#!/usr/bin/env python3# encoding: utf-8'''@file: larsWineCV.py@time: 2020/6/13 0013 10:22@author: Jack@contact: jack18588951684@163.com'''import urllib.requestimport numpy as npfrom sklearn import datasets, linear原创 2020-06-13 11:19:48 · 947 阅读 · 0 评论 -
数据分析——“红酒口感”数据集惩罚线性回归算法
文章目录1.Python代码2.代码说明1.Python代码#!/usr/bin/env python3# encoding: utf-8'''@file: larsWine.py@time: 2020/6/13 0013 8:59@author: Jack@contact: jack18588951684@163.com'''import urllib.requestimport numpy as npfrom sklearn import datasets, linear_mo原创 2020-06-13 09:58:11 · 1323 阅读 · 0 评论 -
数据分析——“岩石 vs. 水雷”数据集岭回归分类
文章目录一.Python代码二.分类结果分析一.Python代码#!/usr/bin/env python3# encoding: utf-8'''@file: classifierRidgeRocksVMines.py@time: 2020/5/31 0031 18:39@author: Jack@contact: jack18588951684@163.com'''import urllib.requestimport numpy as npfrom sklearn import原创 2020-05-31 19:07:25 · 564 阅读 · 0 评论 -
数据分析——“红酒口感”数据集岭回归预测
文章目录一.Python代码二.岭回归1.普通最小二乘法2.岭回归三.岭回归结果分析一.Python代码#!/usr/bin/env python3# encoding: utf-8'''@file: ridgeWine.py@time: 2020/5/31 0031 17:45@author: Jack@contact: jack18588951684@163.com'''import urllib.requestimport numpy as npfrom sklearn im原创 2020-05-31 18:32:58 · 2751 阅读 · 0 评论 -
数据分析——“红酒口感”数据集上模型与数据均衡
文章目录一.Python代码二.模型与数据的均衡三.评估结果分析一.Python代码#!/usr/bin/env python3# encoding: utf-8'''@file: fwdStepwiseWine.py@time: 2020/5/31 0031 11:53@author: Jack@contact: jack18588951684@163.com'''import urllib.requestimport numpy as npfrom sklearn import原创 2020-05-31 13:44:36 · 1105 阅读 · 0 评论 -
数据分析——“岩石 vs 水雷”数据集上度量分类器性能
文章目录#!/usr/bin/env python3# encoding: utf-8'''@file: rock_mine_performance_measurement.py@time: 2020/5/30 0030 16:14@author: Jack@contact: jack18588951684@163.com'''import urllib.requestimport numpyfrom sklearn import datasets, linear_modelfro原创 2020-05-30 18:33:20 · 750 阅读 · 1 评论 -
数据分析——“玻璃的类型”数据集
文章目录0.数据集介绍1.玻璃数据集读取与分析2.变量关系可视化(平行坐标图)3.属性对相关性可视化0.数据集介绍多类别分类问题与二元分类问题类似,不同之处在于它有多个离散的输出,而不是只有两个。回顾探测未爆炸的水雷的问题,它的输出只有两种可能性:声纳探测的物体是岩石或者水雷。而红酒口感评分问题根据其化学成分会产生几个可能的输出(其口感评分值是从 3 分到 8 分)。但是对于红酒口感评分问题,口感评分值存在有序的关系。打 5 分的红酒要好于打 3 分的,但是要劣于打 8 分的。对于多类别分类问题,输出结原创 2020-05-17 13:48:42 · 11479 阅读 · 3 评论 -
数据分析——“红酒口感”数据集
文章目录0.数据集介绍1.红酒口感数据集的读取与分析2.变量关系可视化(平行坐标图)3.属性对相关性可视化0.数据集介绍红酒口感数据集包括将近 1 599 种红酒的数据。每一种红酒都有一系列化学成分的测量指标,包括酒精含量、挥发性酸、亚硝酸盐。每种红酒都有一个口感评分值,是三个专业评酒员的评分的平均值。1.红酒口感数据集的读取与分析import pandas as pdfrom pandas import DataFramefrom pylab import *import matplotli原创 2020-05-17 12:15:38 · 5964 阅读 · 0 评论 -
数据分析——“鲍鱼的年龄”数据集
文章目录0.数据集介绍1.鲍鱼数据集的读取与分析3.变量关系可视化4.属性对相关性可视化0.数据集介绍鲍鱼数据集可以从 UC Irvine 数据仓库中获得,其 URL 是 http://archive.ics.uci.edu/ml/machine-learning-database/abalone/abalone.data。此数据集数据以逗号分隔,没有列头。每个列的名字存在另外一个文件中。建立预测模型所需的数据包括性别、长度、直径、高度、整体重量、去壳后重量、脏器重量、壳的重量、环数。最后一列“环数”是原创 2020-05-17 11:16:55 · 17243 阅读 · 1 评论 -
数据分析——"岩石 vs. 水雷"数据集分析
文章目录0.数据集介绍1.确定数据集的规模:2.确定属性的数据类型(数值型/类别型)3.数值型和类别型属性的统计信息4.用分位图展示异常点5.类别属性的统计特征6.利用平行坐标图进行可视化展示7.属性和标签的关系可视化8.皮尔逊相关系数9.用热图(heat map)展示属性和标签的相关性0.数据集介绍数据集来自 UC Irvine 数据仓库。数据来源于实验:测试声纳是否可以用于检测在港口军事行动后遗留下来的未爆炸的水雷。声纳信号又叫作啁啾信号(chirped signal),即信号在一个脉冲期间频率会原创 2020-05-13 22:27:04 · 1088 阅读 · 1 评论 -
数据分析-特征工程入门实战
文章目录Step 1:导入函数工具箱Step 2:数据读取Step3:特征与标签构建Step 4:模型训练与预测Step 1:导入函数工具箱## 基础工具 import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn...原创 2020-04-06 17:46:24 · 297 阅读 · 0 评论