自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

w0714的博客

趁年轻,多努力努力!

  • 博客(102)
  • 资源 (23)
  • 收藏
  • 关注

原创 【超详细】数据分析笔试题分享,可以收藏后仔细阅读

不定项选择题21道1、 以下选项不正确的是()A、使用drop是否会释放空间B、Truncate是否可以搭配where使用C、alter…drop… 可用于除去表中字段D、Delete是否会释放空间2、以下常用于衡量用户粘性的指标有哪些()A、DAUB、usage penetrationC、RevenueD、Retention3、一年四个季度,第二到第四个季度对于上个季度的销售额增长率分别为5%、10%、15%,请问第四个季度相对于第一季度的增长率为()A、50%B、80%C、3

2021-10-17 23:39:07 39344 8

原创 大厂笔试都考什么题?超详细的笔试试题【附带解析】数据分析

最近正值秋招,许多朋友也都拿到了心仪的offer,不过也有不少的朋友还在网申 ——> 笔试 ——> 被刷之中反复循环,而导致这一现状的重要原因很有可能是自己不懂得总结归纳,就算是一次简单的笔试,自己也应该懂得去总结复盘,切勿在每次的笔试中犯同样的错误。那么今天,我给大家带来了一份关于数据分析岗位的笔试题,题目基本上还原了全部的真实考题,并附带了详细解析,希望有需要的朋友赶紧收藏起来,并仔细阅读,后续我也会不断更新其他的笔试卷子,有需要的朋友可以关注我。

2021-10-16 09:34:14 32260 4

原创 如何快速掌握MYSQL?附牛客网精选的50道SQL题目详解【入门推荐】

如何才能快速掌握MYSQL?如何熟悉使用SQL以满足日常工作需求?如果你目前啥也不会,只停留在知道SELECT用于查询的层面的话,又想要快速掌握MYSQL,那么刷题,并且过程中不会什么补什么,就是巩固和提升自己的SQL语言能力最快捷的方法。那么在之前的一篇博客中,我给出了LeetCode上出现频率最高的50道数据库题目详解,那么这一次,我也SQ给出了牛客网上的50道SQL题,希望对大家有所收获。补充:牛客网相对于LeetCode而言题目较少,且难度较低一些,但胜在免费,并且很多公司笔试的时候会直接饮用

2021-10-13 13:12:14 32843 6

原创 分享一个超详细的数据分析案例【Python】附ABTest详细介绍

分享一个超详细的数据分析案例【Python】附ABTest详细介绍

2021-10-08 15:13:00 47918 51

原创 详细讲解ABTest假设检验【实验设计&结论分析】数据分析

目录一、实验设计1确定业务目标2 选择检验指标2.1 选择一类指标2.2 选择统计量3 确定原假设与备择假设4 两类统计错误的防范5 样本量计算6 检验策略选择、设计分组策略7 当企业没有AB测试的条件的时候,如何解决问题?二、实验结论分析1 决策统计检验2 决策业务问题结束语我在上一篇博客中提到了什么是ABTest,并引用了一个项目,感兴趣的朋友可以再去看看。本篇博客会从企业真实业务的角度来再次介绍假设检验,建议大家收藏后慢慢阅读。一、实验设计1确定业务目标明确我们要提升的业务指标,如日营业额

2021-10-07 11:56:54 43346 10

原创 一文带你了解常见的数据指标都有哪些【数据分析】

为了进一步提升自己分析业务的能力,首先得先了解好在日常业务分析当中往往会用到那些数据指标。接下来我给大家整理了常见的一些数据指标,建议收藏后慢慢阅读。目录用户获取渠道到达量渠道转化率渠道ROI日应用下载量日新增用户数用户获取成本一次会话用户数用户活跃活跃用户PV和UV用户会话次数用户访问时长功能使用率用户留存留存率用户流失率退出率和跳出率市场营销用户生命周期用户生命周期价值用户忠诚指数用户流失指数用户价值指数结束语用户获取渠道到达量这个俗称曝光量,如果在CSDN有发过博客的朋友应该知道“展现量”这

2021-10-04 23:06:10 36757 8

原创 每日分享,一个不错的数据分析实战案例【数据分析可视化】MySQL+Python

利用SQL和pandas对11支球队在7个赛季中的25979场比赛数据,分析各球队在每个赛季的主客场得分情况以及联赛积分情况。

2021-10-03 10:47:57 37820 5

原创 分享一个不错的数据分析实战案例【全程附图】EXCEL

利用最近一次的营销活动的信息,分析什么对推销结果的影响最大,如何确定银行定期产品推销中最具价值的客户。

2021-10-01 17:28:20 70820 133

原创 概念+实战讲解,一文带你了解RFM模型【kaggle项目实战分享】数据分析

RFM模型是数据分析师必须掌握的知识点,而本篇文章详细介绍RFM模型的同时,还附带了kaggle项目实战,收藏本篇文章,你还怕搞不懂RFM模型,不懂怎么对用户进行分类吗?

2021-09-29 14:51:55 48056 5

原创 MySQL实战演练——如何才能构建逾期用户画像?【数据可视化】

这是拍拍贷互联网金融训练营提供的一份数据,为拍拍贷真实业务数据,但仅为信用标的一个样本,仅供数据分析和学术研究目的使用,而非信息披露。从这个数据中推导得到的结果不反映拍拍贷平台的整体情况,也不代表拍拍贷官方的态度。

2021-09-28 09:40:31 44917 4

原创 如何快速掌握MYSQL?附LeetCode上出现频率最高的50道数据库题目详解

LeetCode中有不少题是需要Plus会员才能查看并答题的,所以为避免以后会员过期无法再次查看以及加深自身对题目的理解,进行了MYSQL题目的一次大整理。LeetCode上题目众多,而本篇筛选出了LetCode上出现频率最高的50道题目,并且按出现频率由高到低整理,每道题实现的具体方法和思路都贴在了代码注释,整理不易,希望大家能够做完这些题目或者看完这篇博客,并从中有所获。

2021-09-26 23:26:05 43784 15

原创 必须了解的EXCEL常用函数都有哪些?【附动图详解】数据分析

这应该是我除了计算智能这篇博客之外,整理的最辛苦的一篇博客了。看了CSDN上有不少关于EXCEL函数介绍的,但都没有结合动图来介绍。而本篇博客通过录制动图的方法,并且结合EXCEL官网对于函数的介绍,让大家更直观地感受到函数的具体功能究竟如何。当然,如果你本身只是想了解一下功能大概如何的话,看最前面的表格部分即可。本篇博客根据函数功能分为五大部分,详见目录,你也可以跳转到自己想了解的那一部分。满满干货,建议收藏。希望这篇博客对大家能够有所收获!目录数据清洗类TRIM 函数CONCATENATE 函数

2021-09-25 21:13:05 44872 11

原创 一文带你用Python玩转K-Means算法 ;各种参数详细说明;如何评估无监督模型?

目录必看前言1 使用sklearn实现K-Means1.1 重要参数:n_clusters1.2 重要属性 cluster.labels_1.3 重要属性 cluster.cluster_centers_1.4 重要属性 cluster.inertia_2 聚类算法的模型评估指标:轮廓系数结束语必看前言本文将大家用sklearn来实现K-Means算法以及各参数详细说明,并且介绍无监督学习算法的评估指标,干货满满,欢迎收藏!1 使用sklearn实现K-Means1.1 重要参数:n_cluster

2021-09-19 21:49:07 55362 6

原创 以《简单易懂》的语言带你搞懂无监督学习算法【附Python代码详解】机器学习系列之K-Means篇

目录必看前言无监督学习算法1 聚类与分类2 K-Means算法2.1 K-Means的基本原理2.1.1 K-Means 是如何工作的?2.1.2 簇内误差平方和的定义2.2 K-Means算法的python实现2.2.1 导入数据集2.2.2 编写距离计算函数2.2.3 编写随机生成质心函数2.2.4 编写 K-Means 聚类函数2.2.5 算法验证结束语必看前言今天这一篇文章,将跟大家分享一下无监督学习算法。而本文将试图用简单易懂的语言来讲说到底什么是无监督学习算法,同时主要会以KMeans算法

2021-09-18 22:06:08 38456 20

原创 超详细案例讲解如何寻求产品的市场增长点?【线性回归&数据可视化】

这个项目呢,就不需要我们做很多的数据清洗的工作了,因为我们手里的数据基本已经做好数据清洗了,我们主要需要做的就是数据可视化和文本挖掘工作。下面我们来一一介绍一下。目录1 业务背景1.1 分析流程概述1.2 市场分类1.3 产品生命周期1.4 产品结构-波士顿矩阵(BCG Matrix)1.5 处理项目需求的基本思路1.6 项目需求例子1.7 项目背景&产品架构1.8 数据说明2 驱虫市场的潜力分析2.1 分析目的&加载数据2.1.1 分析目的2.1.2 加载数据2.2 清洗&补全数

2021-09-17 22:00:20 47310 22

原创 基于决策树模型的金融保险用户分类综合项目【数据可视化&相关性分析&填充缺失值&转码&建模&商业应用】

本次文章将会介绍一篇基于决策树模型的金融保险用户分类综合项目,我会从行业背景讲起,将整个项目包括代码全po上来,欢迎阅读收藏。

2021-09-16 20:48:15 37035 28

原创 以《简单易懂》的语言带你搞懂逻辑回归算法【附Python代码详解】机器学习系列之逻辑回归篇

目录必看前言逻辑回归算法1 概述2 基本原理3 sklearn实现3.1 导入数据(乳腺癌数据集)3.2 建模3.3 绘制学习曲线3.4 网格搜索-确定最优参数结束语必看前言这一篇文章,我会详细从机器学习的角度介绍逻辑回归,以及如何利用Python来实现逻辑回归以及逻辑回归的实战模拟,另外我也会教大家如何利用网格搜索找到最优参数。干货满满!逻辑回归算法1 概述分类技术是机器学习和数据挖掘应用中的重要组成部分。在数据科学中, 绝大多数的问题属于分类问题。解决分类的算法也有很多种。 如:KNN,使距

2021-09-15 22:44:16 40194 8

原创 一文带你用Python玩转线性回归模型《加利福尼亚房价预测》回归模型评估指标介绍

前言这一篇文章,我会详细介绍如何利用Python来实现线性回归以及线性回归的实战模拟,以及回归模型的评估指标的详细介绍,感兴趣的朋友可以看一看。目录前言1 线性回归的Scikit-learn实现1.1 导入模块后开始下载数据1.2 拆分数据集(训练集和测试集)1.3 线性回归建模1.4 训练数据1.5 模型评估1.6 将数据集标准化之后再训练1.7 绘制拟合图像2 多重共线性2.1 理解与代码实现2.2 与变换前的模型拟合效果进行比对结束语1 线性回归的Scikit-learn实现接下来以一个加利福

2021-09-14 19:22:24 24317 18

原创 如何搞懂机器学习中的线性回归模型?机器学习系列之线性回归基础篇

前言从今天这篇文章开始,我会介绍线性回归相关的内容。目录前言1 概述2 线性回归与机器学习3 线性回归的机器学习表示方法3.1 核心逻辑3.2 优化目标3.3 最小二乘法1 概述在正式进入到回归分析的相关算法讨论之前,我们需要对有监督学习算法中的回归问题进行进一步的分析和理解。虽然回归问题和分类问题同属于有监督学习范畴,但实际上,回归问题要远比分类问题更加复杂。首先是关于输出结果的对比,分类模型最终输出结果为离散变量,而离散变量本身包含信息量较少,其本身并不具备代数运算性质,因此其评价指标体系也较

2021-09-13 16:23:42 38664 27

原创 你真的了解分类模型评估指标都有哪些吗?【附Python代码实现】

不知道你是否已经看完了我之前讲过的有关机器学习的文章,如果没看过也没关系,因为本篇文章介绍的内容适用于所有分类模型(包括神经网络),主要就是介绍分类模型的评估指标。另外,在前面我还会提一下数据不平衡的问题该如何处理。总之本篇文章实用性极强!...

2021-09-12 20:52:37 39924 27

原创 一文带你用Python玩转决策树【画出决策树&各种参数详细说明】决策树的优缺点又有哪些?

前言在上一篇文章中我们已经详细介绍基于ID3算法进行改良的C4.5算法以及决策树拟合度的优化问题,那这篇文章呢,则是介绍如何使用sklearn实现决策树。当然,如果只是简单实现决策树的话,我是不可能单独拿出来写成一篇文章的,我会在本篇文章中详细地介绍到各种具体功能的代码实现,如剪枝等,同时重要的参数也一个都不会放过。目录前言使用SK-LEARN实现决策树1 参数CRITERION2 初步建模3 探索数据4 画出一棵树5 探索决策树属性5.1 clf.feature_importances_5.2 cl

2021-09-11 19:46:06 47444 23

原创 开始学习机器学习时你必须要了解的模型有哪些?机器学习系列之决策树进阶篇

前言在上一篇文章中我们已经详细介绍了决策树模型,并且提到了ID3算法及其局限性,那么在本篇文章中,我们将会介绍基于ID3算法进行改良的C4.5算法以及决策树拟合度的优化问题。目录前言1 C4.5 算法1.1 修改局部最优化条件1.2 连续变量处理手段2 决策树的拟合度优化2.1 决策树剪枝2.2 CART 算法2.2.1 分裂准则2.2.2 二叉分裂的优点2.2.3 利用测试集进行剪枝2.2.3 测试集和验证集结束语1 C4.5 算法C4.5 算法与 ID3 算法相似,C4.5 算法对 ID3 算法

2021-09-10 20:33:42 40785 19

原创 开始学习机器学习时你必须要了解的模型有哪些?机器学习系列之决策树基础篇

前言:为什么要了解决策树?决策树,一个只要接触了机器学习就必然要学会的算法模型。决策树的算法原理虽然简单,但是模型本身适用面极广,且在分类问题和回归问题上均有良好的表现,外加使用简单,无需人为进行过多变量调整和数据预处理,同时生成规则清晰,模型本身可解释性非常强,因此在各个行业均有广泛应用。也就是说,只要你学习研究或者接触的行业需要用到分类回归算法,那么决策树必然是你需要掌握的,无论导师也好公司领导也好,都会要求你理解并懂得如何使用决策树。那么本篇文章,就会带大家系统的了解什么是决策树?目录前言:

2021-09-09 22:39:54 39071 15

原创 以《简单易懂》的语言带你搞懂有监督学习算法【附Python代码详解】机器学习系列之KNN篇

机器学习系列 往期回顾❤️ 开始学习机器学习之前你必须要了解的知识有哪些?机器学习系列入门篇在上篇文章中,我们介绍了机器学习的一些理论知识,包括什么是监督学习、无监督学习、过拟合欠拟合等等,那在本篇文章中,我们会以KNN来正式介绍什么是有监督学习,让大家在了解KNN的同时完全掌握什么是有监督学习,以帮助大家更好的理解机器学习。注:本篇文章非常详细,附带简单易懂的文字说明和实现代码,欢迎收藏后慢慢阅读。监督学习算法本文主要介绍的有监督学习算法是KNN,后续会接着介绍决策树、线性回归等算法。

2021-09-08 17:16:36 44828 31

原创 我和关注我的前1000个粉丝“合影”啦,收集前1000个粉丝进行了一系列数据分析,收获满满

最近心血来潮,想着了解一下关注我的朋友们,都是怎样的人才(真话!)虽然现在关注我的人已经快到1500了,但我觉得1000算是一个比较有意义的数字,所以我特意收集了关注我的前1000名朋友的信息,主要有以下两个部分:ID、关注日期ID、码龄、被访问量、原创文章、粉丝数量、点赞数、评论数、收藏数之所以拆分成两部分呢,主要是因为这两部分收集的来源不同。第一部分来源于:收集到的数据如下所示:第二部分来源于:收集到的数据如下所示:诶,如果我从关注页面收集了前1000个人的信息,那我从粉丝

2021-09-06 17:05:58 44240 66

原创 分享一个超nice的数据分析实战案例, “手把手”教学,收藏等于学会

今天给大家分享一个数据分析案例:线下连锁水果店销售数据分析案例,分析过程我也会以类动图的方式呈现给大家,真正意义上做到收藏即学会。目录1 案例背景2 问题确认与指标拆解题3 问题解决思路4 案例实操4.1 利用分组分析找到亏损店铺做营销优化,实验验证结论4.2 运用对比分析法解决哪类产品销售好的问题?4.3 利用矩阵关联法找到销量好和利润高的品类4.4 运用趋势分析法分析水果总需求如何?5 结论分析报告1 案例背景果多吃水果连锁超市是华北地区的热门线下水果超市。该超市覆盖华北5个省份,且在京津冀地区门

2021-09-05 17:11:17 53682 15

原创 一文带你了解Hive【详细介绍】Hive与传统数据库有什么区别?

1 什么是Hive?首先给大家介绍一下什么是Hive。Hive是Facebook为了解决海量数据的统计分析,而开发的基于Hadoop的一个数据分析工具(也就证明了Hive没有存储数据的能力,它只有使用数据的能力),而且是将结构化的数据文件映射为一张数据库表(结构化是它对于存储在HDFS上的数据的一个要求,其他的文件是不能映射为Hive表),而且它提供的是类SQL查询功能,所以在数据使用的时候给我们提供了很大的方便。所以HQL其实就是Hive缩写为H,Query缩写为Q,Language缩写为L。由

2021-08-28 18:19:35 53472 23

原创 【傻瓜式教程】Windows下安装Hive MySQL版【附安装Hadoop教程】全网最详细的图文教程

目录一定要先看的前言1 安装Hadoop1.1 下载并解压资源1.2 配置系统变量和环境变量1.2.1 系统变量1.2.2 环境变量1.2.3测试1.3 复制文件1.4 修改配置文件1.4.1 创建目录1.4.2 修改5个文件1.5 格式化HDFS1.6 开启四个进程1.7 测试Hadoop DFS2 安装Hive MySQL版本2.1 下载并解压资源2.2 配置系统变量和环境变量2.2.1 系统变量2.2.2 环境变量2.3 Hive config配置2.4 创建目录2.5 修改 hive-env.sh2

2021-08-28 14:39:37 26628 51

原创 一文搞懂什么是Hadoop?Hadoop的优点有哪些?Hadoop⽣态圈【详细介绍】

前情回顾:⼤数据是如何产⽣的?什么是数据仓库?目前为止,我们知道了海量数据的存储是使用数据仓库,而为了保证数据的质量呢,我们要有元数据管理,还有数据治理。而为了保证这些数据的性能、还有使用的效率等等,那么我们采取的是分层架构。在目前市面上用的比较广泛的数据仓库是Hive,而Hive又是依存于Hadoop这样一个开源的分布式计算平台上。所以本篇博客我们就来介绍一下Hadoop。Hadoop概述1 Hadoop简介Hadoop是什么?简单来说,Hadoop就是解决⼤数据时代下海量数据的存储和分析计

2021-08-27 10:16:27 53501 11

原创 一文搞懂什么是数据仓库(Data Warehouse)数据仓库与数据库区别有哪些?什么是元数据?

前期回顾:⼤数据是如何产⽣的?大数据的特点是什么?什么是埋点?如何进行数据埋点?【超详细介绍】对于这么多种类,这么大体量的数据是如何存储的呢?所以数据仓库就应景而生了。目录数据仓库(数据是如何存储的)1 什么是数据仓库?2 数据仓库解决什么问题?3 数据仓库的主要特征4 数据仓库与数据库区别5 数据仓库架构6 数据仓库元数据管理什么是元数据?元数据具体的工作内容元数据分为技术元数据和业务元数据7 数据治理脏数据的种类数据治理原则知识拓展(数据集市)结束语数据仓库(数据是如何存储的)1 什么是数据

2021-08-26 21:55:08 48199 3

原创 ⼤数据是如何产生的?大数据的特点是什么?什么是埋点?如何进行数据埋点?【超详细介绍】

⼤数据是如何产⽣的?我们都知道,EXCEL一个工作表可以存储104w条记录,那在这样的数据级下处理起来是非常慢的。MySQL一次可以存储4000多万条记录,同样也是数据越多,处理越慢。那与MySQL并行存在的ORACLE和SQL Server存储处理能力也是千万级别的。但是,随着互联网的发展,万物互联的实现,大数据的到来是必然趋势。海量数据的产生,EXCEL和MySQL的存储和处理能力就显得无能为力了。目录大数据来源内部数据如何进⾏埋点?埋点采集工作流程埋点数据采集维度埋点⽂档输出案例外部数据⼤数据特

2021-08-26 16:27:51 44982

原创 【Python】如何应对电商平台中的马太效应?我利用ABTest来寻求电商流量分配的最优解

提出疑问:电商平台的业务场景是怎么的?中小店铺面临着什么样的问题,其对平台的价值又如何?如何解决中小店铺流量扶持问题?怎么利用ABTest方法来寻求电商流量分配的最优解?目录1 电商平台的业务场景2 拆解中小店铺流量扶持问题2.1 中小店铺面临的流量问题2.2 中小店铺对于平台的价值3 设计解决中小店铺流量扶持问题的流程3.1 业务思路3.2 解决问题流程4 利用ABTest寻求电商流量分配的最优解4.1 选择实验主要指标4.1.1 二类指标的确定4.1.2 一类指标的确定4.2 设计原假设与备择

2021-08-24 17:06:14 41546 6

原创 数据分析入门需要了解的统计学知识【持续更新】

最近一直都在重温统计学的知识,是时候整理出来分享给大家了!本篇博客会大致整理常见的统计学知识,多数内容只是简单概述,必要部分我会详讲。基础知识点随机抽样:从总体中随机抽取元素到样本中。分层抽样:对总体分层,并在每层中做随机抽样。简单随机抽样:在不对总体分层的情况下,做随机抽样所得到的样本。偏差:系统性误差。样本偏差:样本对总体做出了错误的解释。样本统计量:对抽取自大规模总体中的样本做计算,所得到的一些度量值。数据分布:单个值在数据集中的频数分布。抽样分布:一个样本统计量在多个样本或重抽

2021-08-12 15:57:19 31514

原创 【学习笔记&Python代码】统计学习方法第二版 李航

以后我会在博客记录自己学习《统计学习方法》第二版这本书的笔记,其实也就是我自己认为比较重要或者有用的内容,以及部分python代码的实现。

2021-08-09 23:22:36 44878 23

原创 对知乎和微博上网友们在热门话题讨论的内容进行情感分析和关键词提取

分享我以前的一个小项目:知乎-微博平台下有关接种新冠疫苗的舆情分析以及引导建议。那在这里我就不介绍选题的背景了,相信大家应该也都了解。而本篇博客主要会介绍此次项目的实现过程以及最终的分析和总结,希望对你有所帮助!文末附完整代码链接。目录1 系统主要模块流程1.1 爬取数据1.1.1 平台分布1.1.2 获取文本内容1.1.2.1 微博1.1.2.2 知乎1.2 数据观察1.3 数据预处理1.3.1 微博文本1.3.2 知乎文本1.4 文本分词1.5 文本特征提取1.6 模型建立与训练1.7 提取关键词

2021-08-04 22:50:49 24692 15

原创 基于pandas、matplotlib和seaborn进行数据分析实战【kaggle】

项目来源:https://www.kaggle.com/anthonypino/melbourne-housing-market项目简介:利用以往的房屋销售信息,分析哪种房屋最值得推荐给投资者进行投资。PS: 本次项目是在jupyter上运行的。导入模块:%matplotlib inlineimport pandas as pdimport seaborn as snsimport statsmodels.formula.api as smffrom sklearn.linear_mod

2021-07-23 21:37:59 36488 8

原创 轻松搞懂【TF-IDF、word2vec、svm、cnn、textcnn、bilstm、cnn+bilstm、bilstm+attention实现】英文长文本分类

项目来源:https://www.kaggle.com/c/word2vec-nlp-tutorial/之前我写过几篇博客:就这?word2vec+BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention实现中英文情感分类代码详解就这?word2vec+SVM(支持向量机)实现中英文情感分类代码详解这两篇博客主要是基于中文进行情感分类的,那么本篇博客,我会以这个kaggle项目来介绍如何实现英文长文本情感分类。1 实验数据本次数据集来源于kaggle项目“Bag o

2021-07-03 10:25:00 30991 80

原创 常见的文本特征(句向量)提取方法有哪些?什么是One-Hot、TF-IDF?word2vec如何训练?【Python】

文本特征提取的方法目前已经有很多种,传统的提取方法有平权统计、TF-IDF等,神经网络的方法有word2vec,接下来我会具体对这三种方法进行介绍,以及如何用代码实现。平权统计平权统计非常容易理解,参见下述代码。# 特征向量化——稀疏表示from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorizer()corpus = ['This is the first document.',

2021-07-03 01:23:48 32087 4

原创 如何实现BiLSTM实现中文分词?与jieba、LSTM进行对比如何?【文档型详解】

1 本文算法1.1 算法概述或框架图本次实验主要可以分为三大部分:标注序列、模型训练用于预测标签以及维特比求解最优路径。下面将依次对这三大部分进行概述。1.1.1 标注序列这一部分主要就是给句子中的每个字进行标注,具体字标注的方为法有好几种,其中最常见的为4标注和6标注。本次实验采用MSR语料库进行,MSR数据集是人民日报标注语料库是在得到人民日报社新闻信息中心许可的条件下,以1998年和2014人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。我们首

2021-07-02 16:31:46 38969 4

原创 【大作业项目】二手房价格预测 Python

其实一开始自己没怎么接触过数据分析这个领域,以前都是跟着导师做情感分析这方面的内容,包括了文本情感和多模态情感分类,第一次真正意义上接触数据分析是在一次课堂的大作业上,虽然我最终选题是之前写过的人脸情感分类,但是有朋友选的是二手房价格预测这个主题,在经历一些变数后,最终我同时接手了人脸情感分类和二手房价格预测两个课题。本篇适合想要学习或从事数据分析行业的朋友阅读,全程干货,建议收藏。项目来源:https://www.kaggle.com/c/house-prices-advanced-regress

2021-07-02 15:54:03 49045 13

如何利用数据分析思维确定银行定期产品推销中最具价值的客户

利用最近一次的营销活动的信息,分析什么对推销结果的影响最大,如何确定银行定期产品推销中最具价值的客户。 内容介绍详见:https://blog.csdn.net/qq_44186838/article/details/120579194

2022-10-22

泰坦尼克号幸存者预测【Python代码&数据集全套】

充实项目or简历经历的优秀资源,用机器学习和统计学知识去解决预测分类问题。 代码中包含知识点以及代码的详细介绍与注释,详见博文:https://w0714.blog.csdn.net/article/details/121593618

2022-06-15

Python selenium爬取微博和知乎的评论文本数据,并对文本进行情感分析(BiLSTM和TextCNN)

过程简介:利用selenium模块爬取数据——>数据预处理——>文本分词——>文本特性提取——>建立Bi-LSTM模型——>进行情感评估——>提取关键词并生成词云。 博客链接:https://blog.csdn.net/qq_44186838/article/details/119393917 亲测可行,内含运行环境的详细说明。

2022-04-22

TFIDF、word2vec、svm、textcnn、bilstm、cnnbilstm、bilstm+attention情感分类

利用word2vec提取文本特征,并建立与训练SVM、Bi-LSTM、textcnn、cnn+bilstm、bilstm+attention模型,最终对测试集数据进行预测。 利用TF-IDF提取文本特征,并建立与训练SVM模型,最终对测试集数据进行预测。 详见博文https://blog.csdn.net/qq_44186838/article/details/118435765

2022-03-12

python实现人脸情感特征提取

人脸特征提取算法大体分为基于静态图像的特征提取方法和基于动态图像的特征提取方法。其中基于静态图像的特征提取算法可分为整体法和局部法,基于动态图像的特征提取算法又分为光流法、模型法和几何法。 在表情特征提取方法中,研究者考虑到表情的产生与表达在很大程度上是依靠面部器官的变化来反映的。人脸的主要器官及其褶皱部分都会成为表情特征集中的区域。因此在面部器官区域标记特征点,计算特征点之间的距离和特征点所在曲线的曲率,就成为了采用几何形式提取人脸表情的方法。文献[1]使用形变网格对不同表情的人脸进行网格化表示,将第一帧与该序列表情最大帧之间的网格节点坐标变化作为几何特征,实现对表情的识别。 本次实现的特征提取方法即为几何法。 资源中有详细的代码运行介绍(README.md)

2021-12-19

支付宝营销策略分析【基于ABTest进行数据分析实战】python

数据齐全,含详细的代码注释以及ABTest具体介绍。 需要自行下载,诚不欺人。 详见博文说明:https://blog.csdn.net/qq_44186838/article/details/120652083

2021-12-14

智能优化算法大礼包【Python】遗传算法、蚁群优化算法、粒子群算法、禁忌搜索算法

Python复现遗传算法、蚁群优化算法、粒子群算法、禁忌搜索算法 详细算法介绍链接:https://blog.csdn.net/qq_44186838/article/details/109181453

2021-12-13

蚁群优化算法(ACO)代码复现【Python】

详细介绍链接:https://blog.csdn.net/qq_44186838/article/details/109207781

2021-12-13

遗传算法Genetic Algorithm代码复现【Python】

遗传算法(Genetic Algorithm,GA)是进化计算的一个分支,是一种模拟自然界生物进化过程的随机搜索算法。 介绍链接:https://blog.csdn.net/qq_44186838/article/details/109197192

2021-12-13

粒子群优化算法PSO代码复现

粒子群优化算法(Particle Swarm Optimization,PSO)是进化计算的一个分支,是一种模拟自然界的生物活动的随机搜索算法。 PSO模拟了自然界鸟群捕食和鱼群捕食的过程。通过群体中的协作寻找到问题的全局最优解。它是1995年由美国学者Eberhart和Kennedy提出的,现在已经广泛应用于各种工程领域的优化问题之中。 ———————————————— 介绍链接:https://blog.csdn.net/qq_44186838/article/details/109212631

2021-12-13

禁忌搜索算法Tabu Search代码复现【Python】

禁忌搜索(Tabu Search, TS)是属于模拟人类智能的一种优化算法。 基本流程:禁忌搜索算法在初始化的时候,在搜索空间随机生成一个初始解 i,禁忌表H置空,当前解i记为历史最优解 s,然后进入迭代的搜索过程。在每一次迭代中,都从当前的解i出发,在当前禁忌表H的限制下,构造出解i的邻域A,然后从A中选出适应值最好的解 j 来替换解 i,同时更新禁忌表H。在解 j 替换解 i 之后,如果解 i 的质量得到改善,那么历史最优的解 s 将被解 i 替换;否则,s 保持不变,即使解 i 虽然暂时变差了,但是由于扩大了搜索空间,仍有利于跳出局部最优。得到了新的当前解 i 之后,算法返回迭代的开始继续进行,直到找到最优解或者运行了一定的迭代次数等终止条件的时候结束算法。 ———————————————— 介绍链接:https://blog.csdn.net/qq_44186838/article/details/109270374

2021-12-13

轻松搞懂word2vec / FastText + SVM(支持向量机)实现中英文情感分类

博客链接:https://blog.csdn.net/qq_44186838/article/details/118054911 主要功能:数据清洗、文本特征提取、建立模型,评估模型,情感分类

2021-12-11

word2vec/fastText+BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention情感分类

内含10w+数据的文本数据集,可调用模型进行情感预测。 主要功能:数据清洗、文本特征提取(word2vec / fastText)、建立模型(BiLSTM、TextCNN、CNN+BiLSTM、BiLSTM+Attention) 注:资源内包含所有第三方模块的对应版本,百分百可运行,诚信。 博客链接:https://blog.csdn.net/qq_44186838/article/details/117995029

2021-12-11

html+php实现个人博客网站(超高分作业)毕业设计

功能说明 未登录用户:仅可以浏览所有博客的内容。 已登录用户:1、浏览所有博客的内容;2、发表博客;3、删除自己的博客;4、修改自己的博客;5、在任一博客下评论;6、修改昵称和密码。 管理员:1、可以执行普通用户的所有功能;2、修改任一博客的内容;3、删除任一博客;4、删除任一用户。 网站平台功能补充说明:1、动态显示博客信息(如当前所有博客数量,用户个人博客数量,以及博客内容信息);2、博客和评论发表的时间遵循北京时间;3、登录时只要输入账号密码即可,后台会自动判断该账号为普通用户还是管理员,进而推送到对应的网页。 ———————————————— 原文链接:https://blog.csdn.net/qq_44186838/article/details/118391048(附带超详细的运行说明)

2021-12-11

html+php实现图书管理系统【毕业设计 期末大作业超高分项目】

此次项目的功能大致如下: 读者:1、查看在馆图书状态;2、借阅图书;3、归还图书;4、查看自己的借阅记录;5、查看自己的罚款记录;6、修改密码。 普通管理员:1、查看图书在馆状态;2、查看图书借阅记录;3、上架新书;4、下架新书;5、查看图书损失记录;6、记录罚款信息;7、查看用户借阅记录;8、查看罚款记录;9、查询读者信息;10、新增读者;11、删除读者;12、修改密码。 超级管理员:1、拥有普通管理员的全部功能;2、查看普通管理员信息;3、新增普通管理员;4、删除普通管理员。 网站功能补充说明:1、能动态显示图书馆在线人数、可借阅书籍总数以及总借阅次数;2、提供便捷的搜索功能,如可以通过模糊搜索来搜索书籍信息、读者信息等;3、网站首页会提供今日热点的超链接;4、读者非正常归还图书后,经管理员记录罚款信息后会自动在读者主页中的罚款记录中显示;5、登录时只要输入账号密码即可,后台会自动判断该账号为读者、普通管理员还是超级管理员,进而推送到对应的网页。 ———————————————— 原文链接:https://blog.csdn.net/qq_44186838/article/details/118382563(附带超详细的运行说明)

2021-12-11

录制GIF动图实用工具

非常好用的一个录制动图的工具,不用安装,下载即用。

2021-08-24

APMServ5.2.6.zip

APMServ 5.2.6 for Windows 2000/XP/2003

2021-07-06

图神经网络gnn论文推荐

内含本人学习图神经网络时阅读的论文,非常推荐想要入门和进一步了解图神经网络的朋友下载阅读。

2020-11-02

CK+ 人脸数据集下载

内含已整理好的八种情绪(neutral、anger、contempt、disgust、fear、happy、sadness、surprise)以及未整理前的数据(鉴于部分同胞需要。) Cohn-Kanade(CK+)扩 展 数 据是目前比较通用的人脸表情数据集,适合于人脸表情识别的研究。它是 2010 年在Cohn-Kanda 数据集的基础上扩展得来的,包含 123 名参与者、593 个图片序列。CK + 与CK 数据集的区别为 CK 数据集只有静态图片,CK + 数据集中还包括动态视频,两者都含有情绪标签,指出了参与者的表情。

2020-04-24

openSMILE批量提取音频情感特征

需要用到openSMILE批量提取音频情感特征的朋友可以下载。 该代码可以起到openSMILE批量提取音频情感特征的功能, 没有积分的朋友可以去某宝上买,很便宜哈哈

2020-04-15

批量处理(切割)音频.py

需要用到批量处理wav音频切割的朋友可以下载。 该代码可以获取音频信息,将音频切割成等长的短音频,或者你可以自己选择切割时间段,单位可以是秒,或者是毫秒,或者是分:秒的格式。 也可以实现pcm文件与wav文件的互相转换。 没有积分的朋友可以去某宝上买,很便宜哈哈。

2020-04-15

CK+ DATASET

内含已整理好的八种情绪(neutral、anger、contempt、disgust、fear、happy、sadness、surprise) Cohn-Kanade(CK+)扩 展 数 据是目前比较通用的人脸表情数据集,适合于人脸表情识别的研究。它是 2010 年在Cohn-Kanda 数据集的基础上扩展得来的,包含 123 名参与者、593 个图片序列。CK + 与CK 数据集的区别为 CK 数据集只有静态图片,CK + 数据集中还包括动态视频,两者都含有情绪标签,指出了参与者的表情。

2020-01-03

MOUD DATASET

做情感数据库这一块的朋友可以下载,资源是一个txt文档,里面有对应的MOUD数据集的网盘链接和提取码,没有积分的朋友可以去某宝上买,很便宜哈哈。

2019-12-28

MOSI DATASET

Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos,做情感数据库这一块的朋友可以下载,资源是一个txt文档,里面有对应的MOSI数据集的网盘链接和提取码,没有积分的朋友可以去某宝上买,很便宜哈哈。

2019-12-28

The Computer Expression Recognition Toolbox-CERT.pdf

这是一篇介绍提取人脸情感特征工具(CERT)的论文。 计算机表情识别工具箱(CERT),一个用于全自动实时面部表情识别的软件工具。它可以自动编码来自FACS的19种不同的面部动作强度和6种不同的典型面部表情。它还估计了10个面部特征的位置以及头部的三维方向(偏航、俯仰、滚动)。在CK+人脸表情数据库中,CERT在分析人脸动作时的平均识别率(在一个正例子和一个负例子之间的两个强制选择(2afc)任务的正确率)为90.1%。在一个自发的面部表情数据集上,准确率接近80%。在标准双核笔记本电脑中,CERT可以以--每秒大约10帧的速度实时处理320×240个视频图像。

2019-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除