自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (5)
  • 收藏
  • 关注

原创 数据保存!!!Python 爬取网页数据后,三种保存格式---保存为txt文件、CSV文件和mysql数据库

    Python爬取网站数据后,数据的保存方式是大家比较关心的意一件事情,也是为接下来是否能够更简便的处理数据的关键步骤。下面,就Python爬取网页数据后的保存格式进行简单介绍。三种保存格式为txt格式、CSV格式和数据库格式。    首先,保存为txt格式。话不多说,直接上代码!    # -*- coding: utf-8 -*-import requestsimport ...

2017-09-07 11:55:04 24375 1

转载 TF-IDF算法详解

最近在做一些NLP的研究,由于也是第一次做这个东西,其实还是发现很多有意思的东西。相信很多做过NLP的人都应该接触过提取关键词的这个功能。现在有很多可以使用的第三方工具包可以很容易的来实现这个功能,比如snowNLP,jieba等,但是我们还是要做到知其然,知其所以然,所以便有了这一篇文字的记录。首先我们来了解一下什么是TF-IDF?其实这个是两个词的组合,可以拆分为TF和IDF。TF(Term Frequency,缩写为TF)也就是词频啦,即一个词在文中出现的次数,统计出来就是词频TF,显而易见,

2020-07-06 11:37:45 635 2

转载 转载!机器学习模型评估指标汇总

机器学习模型评估指标汇总在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总。主要以两大类分类与回归分别阐述。一、分类问题1、混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。复制代码真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假负(False Negative , FN):被

2020-06-11 15:11:03 524

原创 网页时钟-抖音看到的

时钟

2020-04-30 14:58:05 1107

原创 python进行简单的文本相似度分析

python进行简单的文本相似度分析本文利用gensim包、jieba包和TF-IDF模型进行简单的文本相似度分析。从而能够让我们确定,哪句话和哪句话相似程度是多少。文本相似度分析是自然语言处理中常用的一种分析方法,也是一个重要的分析方法。TF-IDFM模型1.模型的原理:是一个语料另一种表示;是一种语料的词权重表示,是词的一种加重技术;是一套自定义的计算模型方法。2.直观的核心思想是:字...

2020-04-30 14:54:23 1019 3

原创 几种算法的使用场景简单记录

最近邻适用于小型数据集,是很好的基准模型,很容易解释。线性模型非常可靠的首选算法,适用于非常大的数据集,也适用于高维数据。朴素贝叶斯只适用于分类问题。比线性模型速度还快,适用于非常大的数据集和高维数据。精度通常要低于线性模型。决策树速度很快,不需要数据缩放,可以可视化,很容易解释。随机森林几乎总是比单棵决策树的表现要好,鲁棒性很好,非常强大。不需要数据缩放。不适用于高维稀疏数...

2020-02-18 13:56:56 340

原创 推荐算法--python实现基于用户的协同过滤算法

1.什么是协同过滤?举个例子,有一天,你想去看电影了,但你不知道有什么电影好看,然后你可能就会问问你的朋友们,看看有什么好看的电影推荐,这时候大部分人都会倾向于问跟你有品味差不多的人。而这也就是协同过滤的核心思想。协同过滤推荐分为三种类型。第一种是基于用户(user-based)的协同过滤,第二种是基于项目(item-based)的协同过滤,第三种是基于模型(model based)的协同过滤...

2019-09-17 15:49:31 3847 2

转载 转 网格搜索GridSearchCV参数详细解析

一网格搜索(寻求参数最优的一种方法)首先为想要调参的参数设定一组候选值,然后网格搜索会穷举各种参数组合,根据设定的评分机制找到最好的那一组设置。使用:from sklearn.model_selection import GridSearchCVclass sklearn.model_selection.GridSearchCV(estimator, param_grid...

2019-06-27 17:38:16 744

转载 转载!! XGBoost Python实战

一. 前言在XGBoost基本原理博文中我们介绍了XGBoost的基本原理,本篇博文我们将介绍XGBoost的基本使用方法,作为新手的学习参考。本文使用kaggle上的泰坦尼克数据集,只是对XGBoost的使用做一个简单的描述,若想知道Kaggle的整个竞赛流程以及在竞赛中如何使用XGBoost进行预测的话,关注本博客,以后会陆续推出与竞赛内容相关的博客及代码。kaggle的泰坦尼克的数...

2019-05-09 18:39:19 956

原创 python 合并Excel中已有的N个sheet,并且把合并后的数据保存为新的sheet

python 合并Excel中已有的N个sheet,并且把合并后的数据保存为新的sheet之前想把一个工作簿中结构相同的多个sheet进行合并,由于sheet太多,不可能手动完成,又不会VBA编程,所以就谢了一个实现此功能的python程序。希望对有相同需求的兄弟姐妹有帮助。用到的Python模块如下:xlrdpandasopenpyxlxlrd、pandas、op...

2018-08-17 18:08:39 21418 8

原创 python 触发器!利用触发器定时执行某项任务!

首先介绍一下需要的模块time模块是与时间相关的模块,该模块提供了time,clock,sleep之类的脚本函数(或者叫做方法)。在Python中,通常有这几种方式来表示时间:1、时间戳(timestamp)。通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。我们运行“type(time.time())”,返回的是float类型。返回时间戳方式的函数主要有time()

2017-11-22 19:19:31 12717 1

原创 利用Python,获取Excel某列中(该列中每个单元格既有中文又有数字)的数字!!!!

利用Python,获取Excel某列中(该列中每个单元格既有中文又有数字)的数字!!!!先看一下原始数据,如下图:我们要处理后的目标数据,如下图:使用正则表达式来解决此问题 正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。 正则表达式的常用的字符含义通过一下代码

2017-11-15 20:20:09 13244 2

转载 转载!python 中 Numpy包

Numpy是Python的一个能快速处理矩阵运算的数学库,如果你从事的是数据科学,或者机器学习领域的话,Numpy是一项最基本的技能。他不仅简化了我们在处理矩阵运算时需要编写的代码,而且,许多Numpy的底层函数用C编写,我们能获得在用普通Python自带的列表结构时,所无法达到的运算速度。下面,我将就Numpy的一些基本用法,做个简单的介绍,当然,一来Numpy库本身会不断更新,二来,我本人的认知

2017-11-07 18:47:36 716

转载 转载!!!决策树的python实现

决策树算法优缺点:优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据缺点:可能会产生过度匹配的问题适用数据类型:数值型和标称型算法思想:1.决策树构造的整体思想:决策树说白了就好像是if-else结构一样,它的结果就是你要生成这个一个可以从根开始不断判断选择到叶子节点的树,但是呢这里的if-else必然不

2017-09-26 18:22:41 452

原创 R语言进行词云分析

一个小例子!用R语言中jiebaR包和wordcloud包进行词云分析jiebaR包 打开R语言,在程序包->安装程序包中进行jiebaR的安装。jiebaR是一款高效的R语言中文分词包,底层使用的是C++,通过Rcpp进行调用很高效。结巴分词基于MIT协议,就是免费和开源的,感谢国人作者的给力支持,让R的可以方便的处理中文文本。“结巴”中文分词的R语言版本,支持最大概率法(Maximum P

2017-09-26 18:19:39 14999 5

原创 post请求网站数据爬取!!!Python学习笔记!

对于刚开始学习Python的童鞋来说,对于网站的爬取可能很模糊,对网站的请求方式也不太了解。下面先简单介绍一下几种常见的网站请求方式,get、post

2017-08-29 18:51:26 11904 3

转载 转载!!!数据挖掘中的经典问题。

1、  机器学习是一个大领域,它包含哪些子领域呢? 机器学习(MachineLearning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综

2017-08-28 18:40:52 574

原创 闲来无事,陶冶一下!

蝶恋花         前方丛花灿烂,       远处伊人不见。       只见蝶儿缠绵,       唯有蜂儿独转。       叹!叹!!       叹!!!

2017-08-24 18:35:44 420

原创 小白福利!!!!sqlserver的基本语句。。。

1.随机取样Select  top(n)*  from table Order by  newid()从table中随机选取n个记录。 2.新建表create table tablename (    列名称1  数据类型,    列名称2 数据类型,列名称3 数据类型) 3.给新表中插入值Insert into 表名(列名1,列名2,列名3) va

2017-08-24 10:56:52 568

products.csv

products.csv

2021-02-15

电影数据电影数据电影数据

我们将在MovieLens(http://movielens.org)数据集上进行实验,在实验中,我们主要利用到的数据集中的两个文件u.data和u.item,其中u.item中记录的是电影的相关信息,u.data中主要是用户对电影的评分信息,评分的范围是1-5,文件的每一列分别表示用户ID,电影ID,评分,时间戳。

2020-05-10

中国城市最新等级划分2019.xlsx

包含国家名称、国家统计局地区名称、点地带名称、八大经济区名称、三大地带名称、省份名、都市圈名称、城市名、城市等级等信息

2019-09-23

新中国城市划分

中国 最新城市划分!包括城市、等级划分和标签字段!

2018-05-24

手机号段归属地2017最全

Excel版的,360000多条记录,2017年最新含手机号段,省份,城市,运营商

2017-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除