自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

毛球饲养员

欢迎来到我的博客。我会分享关于NLP、机器学习与深度学习的知识。才疏学浅,请多多指教。

  • 博客(84)
  • 收藏
  • 关注

转载 python jpype 报错 Contents/Home/jre/lib/jli/libjli.dylib

python使用jpype运行java代码报错Contents/Home/jre/lib/jli/libjli.dylib

2023-03-07 17:58:31 331

原创 每天一个linux命令---awk

awk是一种处理文本文件的语言,是一个强大的文本分析工具,grep、sed、awk并称为shell中文本处理的三剑客。AWK 是一种处理文本文件的语言,是一个强大的文本分析工具。之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符linux中有三剑客之称:三剑客之首就是 AWKgrep : 过滤文本sed : 修改文本awk : 处理文本。

2023-02-19 13:28:41 380

原创 tianchi电商搜索competition

tianchi电商搜索competition比赛:地址大体思路:这个搜索召回的问题baseline就是dssm环境配置&实践数据下载环境是阿里云提供的jupyter打算使用自己的机器,当然之后可以试试阿里云免费的gpu解决方法tf-idf先用jieba分词,然后tf-idf可以提取核心词,计算query和doc的相关性得分。但是比赛规定query和sku都是长度为128的向量,这个无法得到向量啊。tf-idf的核心词用one-hot编码,长度也不合适。dssm先快速搞完d

2022-03-15 22:44:42 686

原创 tensorflow安装 nvidia驱动、cuda、cudnn版本

文章目录tensorflow安装 nvidia驱动、cuda、cudnn版本安装cudareferencetensorflow安装 nvidia驱动、cuda、cudnn版本先看nvidia驱动的版本,个人不方便改动这个nvidia的驱动版本(运维),所以只能在驱动版本的基础上安装cuda以及tensorflow&pytorch。cuda版本和驱动对应关系:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

2021-07-22 15:15:11 338 1

原创 spark hdfs 常用命令

目录lsrmgettext以下按照使用频率和使用先后顺序排序(纯个人习惯)ls列出hdfs文件系统路径下的目录和文件hdfs dfs -ls <路径>列出hdfs文件系统路径下所有的目录和文件hdfs dfs -ls -R <路径>rmhadoop fs -rm < hdfs file > ...hadoop fs -rm -r < hdfs dir>...每次可以删除多个文件或目录getlocal file不能和hdfs fil

2021-05-11 22:32:49 387

转载 集成学习之boosting(4)

第四章:集成学习之Boosting提升法目录四、前向分步算法4.1 加法模型4.2 前向分步算法五、梯度提升决策树(GBDT)5.1 基于残差学习的提升树算法5.2 梯度提升决策树算法(GBDT):四、前向分步算法4.1 加法模型加法模型(additive model)又叫可加模型。在Adaboost模型中,我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和,即:f(x)=∑m=1Mβmb(x;γm)f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x

2021-04-24 00:45:09 124

转载 集成学习之boosting(3)

第四章:集成学习之Boosting提升法目录Boosting和bagging的区别基本原理Adaboost算法Adaboost基本原理Boosting和bagging的区别在前面的学习中,我们探讨了一系列简单而实用的回归和分类模型,同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要

2021-04-21 00:15:02 193

转载 集成学习之Bagging(2)

第三章:集成学习之投票法与Bagging目录Bagging一、原理二、决策树三、实战referenceBagging一、原理Bagging(装袋),它的弱学习器之间没有依赖关系,可以并行生成。从上图可以看出,bagging的个体弱学习器的训练集是通过随机采样得到的。通过3次的随机采样,我们就可以得到3个采样集,对于这3个采样集,我们可以分别独立的训练出3个弱学习器,再对这3个弱学习器通过集合策略来得到最终的强学习器。对于这里的随机采样有必要做进一步的介绍,这里一般采用的是自助采样法(Boots

2021-04-18 01:02:21 124

转载 集成学习之投票法(1)

这里写自定义目录标题集成学习之投票法与Bagging一、投票法的思路二、投票法的原理分析三、投票法的案例分析(基于sklearn,介绍pipe管道的使用以及voting的使用)集成学习之投票法与Bagging一、投票法的思路核心:少数服从多数。投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。for example:举个栗子,在航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号:1110110010011100101

2021-04-14 22:38:04 798

转载 EnsembleLearning-机器学习基础(day6)

第一章 机器学习基础文章目录基本的分类模型5. 评估模型的性能并调参总结实战基本的分类模型机器学习项目分为以下步骤明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。5. 评估模型的性能并调参和之前回归一样,同样采用网格搜索算法、随机搜索算法,或者贝叶斯优化等等。当分类的类别为2的时候可以绘制混淆矩阵和ROC曲线。每一个阈值有一个混淆矩阵,对应ROC曲线上的一个点。根据不同的阈值得到不同的混淆矩阵,

2021-03-29 20:49:40 105

转载 EnsembleLearning-机器学习基础(day5)

第二章 机器学习基础第二节 使用sklearn构建完整的机器学习项目流程文章目录使用sklearn构建完整的回归项目1. 明确项目任务收集数据集并选择合适的特征使用sklearn构建完整的回归项目机器学习项目分为以下步骤明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。这里还是按照这个顺序展开1. 明确项目任务分类收集数据集并选择合适的特征...

2021-03-27 23:07:05 126

转载 EnsembleLearning-机器学习基础(day4)

第二章 机器学习基础第二节 使用sklearn构建完整的机器学习项目流程文章目录使用sklearn构建完整的回归项目5 对模型超参数进行调优(调参)5.1 背景5.2 最优超参数方法5.2.1 网格搜索GridSearchCV()5.2.2 随机搜索RandomizedSearchCV()使用sklearn构建完整的回归项目5 对模型超参数进行调优(调参)5.1 背景之前都是对模型算法本身的优化。所谓的调参其实是调整超参数。比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项

2021-03-24 19:16:41 93

转载 EnsembleLearning-机器学习基础(day3)

# 使用sklearn构建完整的机器学习项目流程文章目录# 使用sklearn构建完整的机器学习项目流程4.2 优化基础模型4.2.1 背景4.2.2 解决方法(a) 最小化训练误差(b) 偏差-方差的权衡(c ) 特征提取(d) 压缩估计(正则化)(e) 降维:4.2.3 实战reference承接上一篇博客4.2 优化基础模型4.2.1 背景我们关心的是模型面对未知的样本集,即测试集上的测试误差,我们的目标是使得我们建立的模型在测试集上的测试误差最小。那我们如何选择一个测试误差最小的模型呢?

2021-03-22 22:37:28 160

转载 EnsembleLearning-机器学习基础(day2)

使用sklearn构建完整的机器学习项目流程一般来说,一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。1. 使用sklearn构建完整的回归项目demo1.1 收集数据集并选择合适的特征这里使用开源的Boston房价数据集。# 引入相关科学计算包import numpy as npimport pandas as pdimport matplotlib.py

2021-03-22 11:03:02 102

转载 EnsembleLearning-机器学习基础(day1)

机器学习的三大主要任务1. 机器学习的划分机器学习是从数据中产生模型的算法,或者说用模型理解数据,发现数据中的规律。根据数据是否有因变量,机器学习可以划分为:有监督学习和无监督学习。有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。因变量就是标签,有监督无监督就是看有没有标签,即YYY进一步根据因变量的是否连续,有监督学习又分为回归和分类:回归:因变量是连续型变量

2021-03-15 23:12:13 188

原创 zsh 安装 主题

目录zsh安装主题zsh安装https://github.com/ohmyzsh/ohmyzsh直接看这个项目安装。主题

2021-01-31 21:23:59 163

原创 python多进程

目录python多进程基本用法进一步探索python多进程众所周知,python多线程因为GIL,很难利用多核心,所以一般使用多进程。基本用法基本用法借鉴于此https://www.cnblogs.com/havePassed/p/5168833.htmlhttps://www.cnblogs.com/jiangfan95/p/11439207.html进一步探索多进程调用的函数之中,应该是没有共享资源的吧,如果有共享的资源,又该如何解决呢?...

2020-07-19 16:33:06 94

原创 挖坑2-迁移学习

2018.7-2018.9挖坑挖坑2-迁移学习挖坑2-迁移学习

2019-07-22 20:06:19 138

原创 挖坑1-计算机图论入门

2018.7-2018.9挖坑挖坑1-计算机图论入门挖坑1-计算机图论入门

2019-07-22 20:04:29 307

转载 deb linux

转自:https://blog.csdn.net/tiryzheng/article/details/79427949dpkg 是Debian Package的简写,是为Debian 专门开发的套件管理系统,方便软件的安装、更新及移除。所有源自Debian的Linux发行版都使用dpkg,例如Ubuntu、Knoppix 等。以下是一些 Dpkg 的普通用法:1、dpkg -i &amp;amp;amp;amp;lt;p...

2018-10-14 20:04:49 171

原创 linux 压缩 解压

目录Linux解压、压缩方法.tar .tar.gz .tgz .tar.bz2 .tar.Z.gz .bz2 .Z.zip.rar.lhagzip命令ReferenceLinux解压、压缩方法.tar .tar.gz .tgz .tar.bz2 .tar.Z注意,.tar只是打包 压缩方式 操作 .t...

2018-10-14 20:03:40 238

原创 linux 文件权限与用户组

目录用户权限理解文件权限用户权限在linux中的每个用户必须属于一个组,必须独立于组外。在linux中每个文件有所有者、所在组、其他组的概念。理解文件权限...

2018-10-14 19:56:41 290

原创 C++ main函数

C++的main函数可以没有输入参数,也可以有输入参数,而且只能有两个参数。int main(int argc, char* argv[]){}//或者int main(int argc, char** argv){}argc:argument count标注传入main函数的数组元素的个数,是int类型argv:argument vector表示传入main函数的指针数组,为ch...

2018-10-12 11:18:30 586

原创 c++ unordered_map和

目录unordered_map一、概念二、容器的特性三、成员函数1.unordered_map一、概念unordered_map是一个类模板,叫做无序映射表,是C++11的新特性,和map有一些不同,主要体现在无序上,不会根据key大小去排序。Unordered maps are associative containers that store elements formed by t...

2018-10-10 13:45:42 907

原创 C++ vector

目录vector一、概念二、容器的属性三、成员函数1. 构造函数2. 增加函数3. 删除函数4. 遍历函数5. 判断函数6. 大小函数7. 其他函数四、代码实例vector一、概念首先要知道,vector是一个class template,他申请的是一块连续的地址空间。Vectors are sequence containers representing arrays that can...

2018-10-10 09:25:57 165

原创 清洗网页数据

字符集和编码规则的背景知识ASCIIAmerican Standard Code for Information Interchange美国标准信息交换码 只能表示128个字符 这个大家都是很熟悉的,从32是空格,然后是一堆符号,然后是48~57表示0~9,65~90是A~Z,97~122是a~z。 就是很少,也只有英文字母Windows:ANSI然后发展到了ANSIHT...

2018-08-17 17:12:17 624

原创 爬取携程酒店评论-Selenium-火狐浏览器-BeautifulSoup

一、background虽然scrapy是一个非常强大的工具,也能配合selenium来使用,但是时间比较紧,不知道为什么没有成功将selenium应用在scrapy上。日后再研究一下。 本篇博文只要讲述如何使用selenium,这是一个模拟浏览器来爬取数据的工具,当然还会使用到BeautifulSoup,专门提取网页内容的工具。二、安装安装selenium# 一条命令搞定pi...

2018-08-12 13:05:03 1783 10

原创 Scrapy简介与pycharm的使用

Background最近要从京东爬取一些评论作为语料,所以要使用爬虫技术。 那么现在有这么多种爬虫技术,该选择哪个呢? 经过调研,我打算采用Scrapy框架,具体原因请看下文。Scrapy简介github源码https://github.com/scrapy/scrapy Scrapy is a fast high-level web crawling and web sc...

2018-07-21 12:52:32 420

原创 122. 买卖股票的最佳时机 II

笨方法,算出了所有的递增序列,当时没有想到贪心class Solution {public: int maxProfit(vector&lt;int&gt;&amp; prices) { if(prices.size() == 0) return 0; int money = 0; int pos = 0, pr...

2018-07-08 13:59:45 122

原创 26. 删除排序数组中的重复项

class Solution {public: int removeDuplicates(vector&lt;int&gt;&amp; nums) { if (nums.empty()) return 0; int pre = 0, cur = 0, n = nums.size(); while (cur&lt;n)...

2018-07-08 13:54:39 164

转载 linux shell 中"2>&1"含义

脚本是: nohup /mnt/Nand3/H2000G &amp;amp;amp;gt;/dev/null 2&amp;amp;amp;gt;&amp;amp;amp;amp;1 &amp;amp;amp;amp; 对于&amp;amp;amp;amp; 1 更准确的说应该是文件描述符 1,而1 一般代表的就是STDOUT_FILENO,实际上这个操作就是一个dup2(2)调用.他标准输出到all_result ,然后复制标准输出到

2018-06-03 19:16:16 2729

原创 NLP Evaluation Metric 分类问题

一、Background二、评价指标三、Demo四、Reference一、Background在学会了用deeplearning做情感分类之后,如何评价自己的模型有效果呢?如果没有评价指标的话,别人也没法知道你的方法好不好,那么你所做的一切都是浮云。最简单的评价指标就是准确率(Accuracy),常用的还有精确率(Precision)、召回率(Recall)、F...

2018-05-14 14:18:33 1408

原创 NLP 语料分类不均衡的解决办法

一、Introduction二、Influence三、别人的解决办法数据层面:算法层面:四、个人的解决办法五、Reference一、Introduction以前在做情感分类问题都是用sst等等,一些经典的语料,但是当自己要做语料的时候,才发现事情并不是想象的那么简单。要进行语料清洗,语料的切分(十折交叉),现在又要考虑语料的均衡性问题。 不平...

2018-05-12 14:05:46 5085 3

原创 Django学习笔记-定时器 CRONTAB

一、Introduction二、Backgoround三、CRONTAB1.安装2.配置3.添加定时任务4.启动任务四、结束五、参考一、Introduction在官网上的说明: dead simple crontab powered job scheduling for django 英语不好的我只是认为crontab能给django提供一个按照...

2018-04-09 14:52:29 4099 2

原创 Python ConfigParser

ConfigParser在深度学习中,我打算用这个类来处理参数文件,xx.ini或者xx.cfg。一、基本操作1、基本的读取配置文件read(filename) - 直接读取ini,cfg文件内容sections() - 得到所有的section,并以列表的形式返回options(section) - 得到该section的所有optionitems(section) ...

2018-03-23 21:49:22 151

原创 Django学习笔记-Ajax

Ajax实现页面无刷新具体问题: 在前端有些数据要提交,但是没有form表单,所以要构建一个form表单,然后在提交。一、HTML界面&lt;!DOCTYPE html&gt;&lt;html&gt;&lt;body&gt;&lt;p&gt;请输入两个数字&lt;/p&gt;&lt;form action="/add" method="get"&amp

2018-03-23 13:33:11 195

原创 Django学习笔记-MySQL

一、安装MySQL下载https://dev.mysql.com/downloads/mysql/ 安装步骤解压 添加两个文件,my.ini及data文件夹(如上图所示) my.ini文件中的内容:[client]port=3306default-character-set=utf8[mysqld] # 设置为自己MYSQL的安装目录 basedir=D...

2018-03-08 18:36:54 229

原创 Stanford Parser - Constituent to Dependency Conversion

Constituent to Dependency Conversion目的:已经处理好的短语句法分析树转成依存句法分析树短语句法分析的例子:(ROOT (IP-HLN (NP-SBJ (NP-PN (NR 中国)) (ADJP (JJ 最大)) (NP (NN 氨纶丝) (NN 生产) (NN 基地))) (VP (PP-LOC (P 在) (NP-PN (NR 连云港))) (VP

2018-01-24 19:30:20 394

原创 Django学习笔记-模板

简单点来说,网站无外乎就是从前端得到数据,数据在后端处理,将数据返回给前端。这里就不说如何获取前端数据了。一、数据返回给前端之前的demo中有一种:return HttpResponse(u"接收这个请求后,返回的数据")但是这种基本是用不到了,正常的做法是URL中的name属性和VIEW中render。当然也可能使用JSON等等来实现数据传输。直接看demo吧,新建的

2018-01-20 16:02:53 171

原创 python argparse

python程序怎么使用命令行参数呢???就靠argparse了。

2018-01-04 09:55:16 340

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除