杰公子-CSDN博客

原创语音识别天池新人赛

数据集来自Eating Sound Collection，数据集中包含20种不同食物的咀嚼声音，赛题任务是给这些声音数据建模，准确分类。作为零基础入门语音识别的新人赛，本次任务不涉及复杂的声音模型、语言模型，希望大家通过两种baseline的学习能体验到语音识别的乐趣。 train文件夹：完整的训练集； train_sample文件夹：部分训练集； test文件夹：测试集；目前由于天池实验室存储限制，在DSW上参与本场比赛建议使用压缩后的数据集赛题使用准确率（Accuracy）衡量选手结果与真实标签的差

2021-04-14 23:45:43 885 2

原创集成学习-bagging

1.Bagging（Bootstrap AGGregating, 装袋）算法族介绍 Bagging 是一种个体学习器之间不存在强依赖关系，可同时生成的并行式集成学习方法。（1）Bagging算法原理 Bagging即套袋法，是一种采用自助采样法（bootstrap）的集成学习算法。自助采样法是一种有放回的抽样方法，目的为了得到统计量的分布以及置信区间，其算法过程如下：（a）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到

2021-04-14 23:22:50 2466

原创特征工程与参数调节

EDA：探索性描述分析 1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模. 2.了解变量间的相互关系、变量与预测值之间的存在关系。 3.为特征工程做准备 ...

2020-09-27 19:15:14 558

原创金融风险管理：赛题理解

数据分析四大步骤赛题：以预测用户贷款是否违约为任务。数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。赛题数据初始特征有许多，部分展示如下。评价标准：提交结果为每个测试样本是1的概率，也就是y为1的概率。评价方法为AUC评估模型效果（越大越好）。提交前请

2020-09-15 23:18:59 813

原创 n-gram，fasttext，elmo，bert

n-gram n-gram是基于语言模型的算法，基本思想是将文本内容按照子节顺序进行大小为N的窗口滑动操作，最终形成窗口为N的字节片段序列。而且需要额外注意一点是n-gram可以根据粒度不同有不同的含义，有字粒度的n-gram和词粒度的n-gram，顾名思义。 n-gram的第一个特点是某个词的出现依赖于其他若干个词，第二个特点是我们获得的信息越多，预测越准确。我想说，我们每个人的大脑中都有一个N-gram模型，而且是在不断完善和训练的。我们的见识与经历，都在丰富着我们的阅历，增强着我们的联想能力。 N-g

2020-06-30 18:50:24 1400

原创 word2vec进一步说明、glove

word2vec进一步说明 glove GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。我们通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两

2020-06-27 16:41:47 434

原创 NLP系列1：NLP介绍、word2vec

NLP研究的对象

2020-06-24 21:00:47 512 1

原创分析AJAX的爬虫项目：腾讯新闻

腾讯新闻腾讯新闻网页是标准的ajax加载网页，我们要通过chrome的开发者工具，监控网络请求，并分析。目标是爬取https://news.qq.com/ 的热点精选，“热点精选”至少爬50个出来，存储成csv 每一行至少包括标号（从1开始）,标题,链接,…。 requests和selenium各来一遍~ requests：首先观察“热点精选”的js，有三个变化的参数，其中expIds像是每...

2020-04-27 15:59:47 564 1

原创维护简单ip池，selenium自动化，session和cookie

IP 网站为了防止被爬取，会有反爬机制，对于同一个IP地址的大量同类型的访问，会封锁IP，过一段时间后，才能继续访问，有几种简单的应对套路： 1.修改请求头，模拟浏览器（而不是代码去直接访问）去访问 2.采用代理IP并轮换 3.设置访问时间间隔这是一个ip网站，https://www.xicidaili.com/` 使用代理格式 proxies的格式是一个字典proxies = {‘http’:...

2020-04-25 19:02:56 1745 2

原创爬虫打卡2之定位工具xpath、bs4、re学习总结

xpath XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。在XPath中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML文档是被作为节点树来对待的。 XPath和CSS选择符十分相像!但XPath有更强大的地方,比如它可以定位到body元素下具体位置上的p或可以选择前N个p: body/p[...

2020-04-23 19:44:32 736 1

原创爬虫入门打卡1：html等有关知识，api使用，request基本使用&ajax技术（爬虫如何应对）

这里写自定义目录标题欢迎使用Markdown编辑新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Mar...

2020-04-20 17:16:53 483

杰公子的博客