自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 集成模型思想篇:从bagging到RF,从boosting到AdaBoost、BDT→GBDT→XGBOOST→LGBM,一步步理解并记忆

本文主要记录和分享个人对集成学习模型学习后的一些总结,略去严格的数学推导过程,重点在于阐述各个不同模型的思想、关系和异同,方便理解和记忆------ 集成模型就是认为一个机器学习器的学习能力(包括学习方向、学习范围)都是单一有限的,为了加强学习能力,可以把很多个同样的学习器对同一数据集进行学习后的结果进行加权,得到的一个平均结果作为最终结果。这个最终结果综合了各个学习器的学习能力,优劣互补、互相牵制,再提升学习能力的同时避免了单个学习器可能产生较大偏差而带来的影响。------这种思想就和找有很多个评

2020-07-19 22:33:57 3233

原创 核函数------直观理解

带你深透地理解核函数一、核函数的作用二、核函数运用和解释三、核函数使用过程一、核函数的作用1、要搞懂核函数,第一步就是要明白为什么要用核函数机器学习的分类方法,就是找到一个标准,能把当前要做分类的数据集正确的分类好;这个标准的探索过程就是利用已有数据集(训练集)去不断学习、调优,最终得到一个满足条件的标准就是结果。SVM支持向量机(二分类)就是找到一个超平面作为分类标准,在这个超平面的同一侧所有数据点是第一类,另一侧所有数据点是第二类。超平面可以简单理解为线性表达,在二维中超平面是一根直线,三维

2020-06-14 17:27:35 1649 1

原创 逻辑回归(Logistic Regression)最形象简单、通俗易懂的理解方式

最形象直观的方式理解逻辑回归一、思想由来(买衣服例子)二、结合例子简单推导过程三、与线性回归关系四、实际例子逻辑回归(Logistic Regression)的目的是分类,最开始是从逻辑分类(即二分类)展开并进一步扩充的,思想来源于线性回归,故名逻辑回归。本文从简单形象的例子出发,解释逻辑回归的思想和推导过程,通俗易懂,只要接触过概率论就能看得明白。一、思想由来(买衣服例子)——比如来到商场,看见一件衣服你比较喜欢,你会更仔细打量它,并决定是否购买,你的内心经过 博弈后做出最终方案:买与不买,逻辑

2020-06-09 23:02:42 3743 1

原创 R语言自定义极大似然估计函数、假设检验函数

R语言自定义极大似然函数函数、假设检验函数(超基础、简易)目录一、自定义极大似然函数二、自定义假设检验函数目录一、自定义极大似然函数1、求出似然函数,以正太分布、指数分布为例正太分布似然函数:指数分布似然函数(假设x>0):2、函数代码:正太分布求极大似然函数的函数代码norm.fun<- function(theta,x) # 创建似然函数{ mu<-...

2020-05-02 23:05:48 7797 1

原创 TSP问题解决:模拟退火、贪心法、爬山法,Python实现

一、TSP问题1、TSP问题描述简单来说,就是给定一些点,找出一条通过所有点的回路,使得回路最短旅行商问题,即TSP问题(Traveling Salesman Problem)又译为旅行推销员问题、货郎担问题,是数学领域中著名问题之一。假设有一个旅行商人要拜访n个城市,他必须选择所要走的路径,路径的限制是每个城市只能拜访一次,而且最后要回到原来出发的城市。路径的选择目标是要求得的路径路程为...

2020-04-30 00:26:19 6886

原创 基于朴素贝叶斯网络的iris鸢尾花数据集分类到新闻分类

本篇文章是对最简单的朴素贝叶斯网络的运用进行python实践,先对iris鸢尾花数据集做一个分类预实验,再对实际新闻进行分类预测有关贝叶斯网络原理可以查看这篇文章 :贝叶斯网络基础一、iris鸢尾花数据集分类1、开头先导入相关模块:import matplotlib.pyplot as plt # 绘图from sklearn.datasets import load_iris #导...

2020-04-26 01:41:22 6594 1

原创 爬取微博“打工是不可能打工之周某出狱热评” 并分析

人不在江湖,江湖已满是传说……早些天,周某还未出狱,其即将于4.18出狱已登上热搜;而4.18日,有关他出狱的消息并未比上次火爆。周某关于柳州某监狱,博主也是柳州人,在这一代年轻人的圈子里,当然多多少少会关注一些。据圈里知情,和其他出狱者不同,他已经是政府机关的重点关注对象,一大早就被南宁机关专车接走,还没能露面。……在如今流量即为核心竞争力的网络影视、直播平台,自然会对这样一个网红开展突击行...

2020-04-19 14:14:01 598 3

原创 基于聚类神经网络的颜色降维图片压缩方法

只用不到二十个数字就能在某种失真度上保存一张图片,你信不信?1、方法原理……首先要了解,图片的保存原理是利用像素点,所有颜色都是由三原色(红黄蓝)按不同比例混合而成的,所以每一张彩色图片的每一个像素点就包含着这三种颜色的权重。……一张彩色图片的像素信息由三张二维矩阵构成,每一个二维矩阵代表三原色其中一种颜色的权重,可以简单地这样理解:将一张彩色图片很细密地横竖切割成MXN个小块块,当小块足...

2020-04-17 12:49:40 679 1

原创 基于支持向量机的数据分类以及绘制决策边界(超平面)

基于支持向量机的数据分类以及绘制决策边界(超平面)为了方便结果可视化,本文主要利用二维数据点进行讨论目录:1、导入数据并观察数据:2、对训练函数3、绘制决策边界(超平面)观察分类效果4、利用这四组参数对测试集进行测试并绘制图像首先开始就列出利用的库# coding:utf-8import numpy as npimport matplotlib.pyplot as pltfr...

2020-04-14 14:30:52 6311 1

原创 基于支持向量机的新闻分类

利用支持向量机模型对2万条新闻进行分类一、文本预处理1、新闻用txt文件装,每一行一个新闻,为了减轻矩阵维数,只选择包括标题在内的与新闻内容最相关的前100个字。2、对新闻进行jieba分词,分词后每一行是一条新闻的词语,格式是一个List二、求文本的TF-IDF矩阵直接上代码和注释,关于矩阵原理以及应用可翻看:点这里# coding:utf-8from sklearn.feat...

2020-04-07 21:16:34 2953 5

原创 文本向量化——基于TF-IDF词袋模型的文本向量化方法

文本向量化——基于TF-IDF词袋模型的文本向量化方法点这里,上一篇文章——基于高频词汇的文本向量化方法1、解释TF-IDF词袋模型TF:词频IDF:逆向文件频率举例子解释:假如有一个包含100篇文章的文本集合,里面包含关于足球、汽车、服饰三个大类的文章,我们对这100篇进行分类。显然,关于这三大类不同的文章都有各自的特征词,这些特征词会在归属类出现频率高,却在另外两类不出现或者偶尔出...

2020-04-06 01:08:33 3199 2

原创 文本向量化——方法1:基于高频词的向量化方式(包含python代码)

文本向量化——方法1:基于高频词的向量化方式(包含python代码)对大文本进行处理和运用,最关键的一步就是如何将文本向量化,我最近学习和琢磨出了几种方法,这里跟大家分享,我这里以我上一篇博文爬取微博关于“线上教学”的评论作为例子。一、构造思维1、将文本转化为向量是处理文本的关键,而使得文本特征表现在对应向量上又是向量化的关键,简单来说就是为了将文本和向量一一对应,并且具有“相似的两个文本转...

2020-04-05 01:56:55 3207 1

原创 简单爬取微博评论详细解析,学习爬取ajax异步数据交换动态网页

简单爬取微博评论的详细解析,学习爬取ajax异步数据交换动态网页1.什么是ajax异步数据交换网页简单来说,就像微博评论一样,你获取新的内容不需要翻页,一直在固定的一个网页不断往下拉就行,手机端和电脑端都是如此;这样的网页用,把信息不断地数出在同一个网页上地技术就是ajax,具体地不必再说,直接切入爬取正题。2.用到的工具模块和简单解释1.爬虫主要模块 requests模块2.用于计时的...

2020-03-30 21:39:48 2377 3

原创 自适共振神经网络算法 ART 算法 代码实现

自适共振神经网络算法 ART1 算法python 代码实现由于学习需要ART算法,python 和matlab 又没有直接调用的模块和函数,故自己写了一个简单易懂、快捷优化了的ART1 算法,代码一共80行左右,附带详细解析,如下:# coding=utf-8import numpy as np# 初始化内心向量矩阵B 和外星向量矩阵T (每一列标识一个 内星/外星 向量)#...

2020-03-29 17:15:03 2403

原创 我悄咪咪告诉你:罩杯越小的妹子倾向买越贵的内衣~~Python爬取京东9000条内衣销售数据之数据关联度分析

将爬取的9000条内衣销售数据整理清洗后,基于Apriori关联算法,针对“罩杯和消费价格倾向这两个元素有无关系”这个问题进行分析上一篇用数据库清洗数据,点这里再上一篇爬取数据详情,点这里首先要说明一下,这9000条数据不管是从数据量、数据真实性、有效性、代表性这几个方面来说都是远远不够的;本文主要是大胆地提出一个想法,在假定这个数据是理想的条件下,完成算法实现和结果分析;当然,可靠的论证还...

2020-03-24 13:16:05 528

原创 爬取9000条京东内衣销售数据做关联度算法之二mysql数据库整理、清洗数据

用mysql数据库整理、清洗9000条京东内衣销售数据上一篇详细介绍了爬取过程,这篇主要介绍用mysql数据库整理数据,爬取详情可参考:https://blog.csdn.net/m0_46557838/article/details/1050281451.for循环更改产品id和评论页数,获取大量数据(这里解释一下为什么页数用0-99页,虽然商品上显示有几万评论,每页10个评论应该有几千...

2020-03-23 19:23:32 624

原创 python爬取9000条京东内衣销售数据,最最最最基础的语言和语法;并利用这些数据,基于Aprior算法分析“是否罩杯大的人倾向于买贵一些的bra”

47[TOC](爬取9000条京东内衣销售数据,最最最最基础的语言和语法,一看即会)本人刚接触python和爬虫不久,靠着CSDN的博文自学,尽管有很多内 容看不懂,但是还是靠着度娘的支撑慢慢啃下了不少相关博文,并实现了爬取京东的一些销售数据。从学习到实现,为了理解其他大佬们简洁有效代码花了不少功夫,着实感到不易。为了让真正0基础的朋友能看得懂,我写一个最基础的语法程序来实现它(当...

2020-03-22 17:23:53 1605

weibocomments.txt

爬取得来的超过十万条微博关于线上教学的评论,可以利用于与文字或者情感有关方面的研究

2020-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除