张淮北的小屋

问渠那得清如许,为有源头活水来;唯有深入,方能理解。
私信 关注
huaibei_北
码龄9年

对技术常怀敬畏之心

  • 490,694
    被访问量
  • 151
    原创文章
  • 16,520
    作者排名
  • 50
    粉丝数量
  • 于 2012-09-03 加入CSDN
获得成就
  • 获得125次点赞
  • 内容获得78次评论
  • 获得201次收藏
荣誉勋章
兴趣领域
  • #算法
    #排序算法#NLP#TensorFlow#分类#推荐算法
TA的专栏
  • 图像处理
    10篇
  • 算法
    15篇
  • C++编程语言
    29篇
  • 刷题
    34篇
  • 面试
    8篇
  • Python
    39篇
  • Java
    6篇
  • 配置工具类
    14篇
  • 机器学习算法
    33篇
  • TensorFlow
    3篇
  • linux&&shell
    15篇
  • PHP语言
    1篇
  • 我爱数学
    2篇
  • NLP
    6篇
  • 数据库-mysql/hive
    6篇
  • git
    2篇
  • 特征工程
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

git密码更改之后导致的不能push数据

出错指令remote: HTTP Basic: Access deniedfatal: Authentication failed for 'http://git.int/.git/'解决办法:输入命令git config --global --unset user.password来消除密码;然后重新输入密码即可
原创
6阅读
0评论
0点赞
发布博客于 3 天前

布隆过滤器

主要作用:根据给定的布隆过滤器判断值是否存在。尤其适用于当数据量非常大时的判断。但是会存在一定的误判率,属于是牺牲了准确率来提升判断速度和节省存储空间。原理是将数据映射到一个很长的二进制向量上,通过查询映射数据在二进制向量的存在情况来判断数据是否存在。核心概念是若k哈希函数和一个长度为m的超大的位数组。添加时将元素通过函数函数得到k个值,然后将位数组上的这个k个位置置为1;判断元素时,同样通过函数得到k个值,然后判断在位数组上着k个位置是不是都是1,如果不是那数据肯定不存在,如果是那数据可能是存
原创
30阅读
0评论
0点赞
发布博客于 2 月前

二叉树的前序、中序、后续遍历递归和迭代的解法

二叉树的前序、中序、后续遍历递归解法 //先序遍历 void pre_order(TreeNode* root,vector<int>& number){ if(!root) return; number.push_back(root->val); pre_order(root->left, number); pre_order(root->right, number);
原创
31阅读
0评论
0点赞
发布博客于 4 月前

FM/FFM/wide&deep/deepFM笔记

一,FMFM在LR的基础上,增加了交叉特征,表达能力更强。FM为每个特征学习一个隐向量,在特征交叉时,使用两个特征隐向量的内积作为交叉特征的权重。FM的模型是:y~=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vivj>xixj\widetilde{y}=w _{0}+\sum_{i=1}^{n}w _{i}x _{i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n}<v_{i}v_{j}>x_{i}x_{j}y​=w0​+i=1∑n​wi​xi​+i
原创
91阅读
0评论
0点赞
发布博客于 4 月前

大数相加和大数相减

1,大数相减大整数相减。有两个非常大的整数,因为太大所以用数组保存,计算大数相减的结果。vector<string> bigint_subtraction(vector<int>& nums, int target) { vector<int> A = {1,3,4,6,8}; vector<int> B = {1,3,4,6,9}; //将大的值变成A,小一些的值变成B int asize = A.size(),b
原创
53阅读
0评论
0点赞
发布博客于 4 月前

【机器学习】从决策树到GBDT(二)

一,集成学习决策树的集成学习分成两大类,Bagging和Adaboost。AdaBoost中着重介绍boosting。Bagging的策略:(1)从样本集中重采样(有重复的)选出n个样本;(2)在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等);(3)重复以上两步m次,即获得了m个分类器;(4)将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类。在Bagging方法中,每个学习器之间彼此是相互独立的,这样的特点使得Bag
原创
36阅读
0评论
0点赞
发布博客于 4 月前

mac os mojave 安装lightgbm

1,安装cmake和gccbrewinstallcmake(安装cmake过程比较慢)brewinstallgccmac默认是有一个gcc的只是版本比较低是4.8的。直接使用版本查看命令是本机自带的'brew -v',安装了新的gcc版本是10,地址在/usr/local/homebrew/Cellar/gcc/10.2.0。查看其版本信息‘/usr/local/homebrew/Cellar/gcc/10.2.0/bin/gcc-10 -v’2,安装lightgbm...
原创
54阅读
0评论
0点赞
发布博客于 4 月前

【机器学习】常见的损失函数

机器学习中常见的损失函数一,回归问题1,MSE(均方误差)(Mean Square Error)均方误差也叫方法损失函数或者最小二乘法作为机器学习中常常用于损失函数的方法,均方误差频繁的出现在机器学习的各种算法中,但是由于是舶来品,又和其他的几个概念特别像,所以常常在跟他人描述的时候说成其他方法的名字。均方误差的数学表达为:如公式所示,通过计算每个预测值和实际值之间的差值的平方和再求平均,机器学习中它经常被用于表示预测值和实际值相差的程度。平方损失函数是光滑的,可以用梯度下降法求解,但是,当预
原创
45阅读
0评论
0点赞
发布博客于 4 月前

深度学习常见的激活函数

一,什么的激活函数激活函数是神经网络中对数据做非线性变换的函数。如下所示:输入的x值,经过权值相乘合并之后再经过‘激活函数’得到一个映射值。二,激活函数的作用因为线性的数据表达过于单一,若没有激活函数,再多层的网络也不过是多套了几层的线性函数而已。以分类为例,线性函数只能处理线性可分的问题,对于复杂点的就无能为力了。而使用激活函数对线性数据改变之后,数据就是非线性的了。理论上网络层数足够的话可以拟合出任意函数,可以解决任何问题。三,常用的激活函数1,sigmoid函数这是神经
原创
31阅读
0评论
0点赞
发布博客于 4 月前

指数函数,幂函数记录

1,指数函数底越小,曲线越缓;底越大,曲线越陡。
原创
111阅读
0评论
0点赞
发布博客于 8 月前

linux diff命令使用记录

参考链接https://www.cnblogs.com/sevck/p/5036976.html
原创
72阅读
0评论
0点赞
发布博客于 8 月前

docker目录迁移/var/lib/docker/overlay满了

先保存docker system df查看docker使用的磁盘情况,比如镜像、容器各占了多大的空间docker system prune命令可以用于清理磁盘,删除关闭的容器、无用的数据卷和网络,以及dangling镜像(即无tag的镜像)。迁移docker目录1,stop dockersystemctl stop docker2,创建新的docker目录mkdir l..3,迁移/var/lib/docker/目录下面的文件到新的文件夹rsync -avz /var/lib/dock
原创
322阅读
0评论
0点赞
发布博客于 8 月前

grep的操作

1,查看某个文件是不是包含数据#查找当前目录下所有包含'check'词的文件grep 'check' *#查找当前目录下所有包含'check'词的以py结尾的文件grep 'check' *py#查找当前目录下所有包含'check'词的以down开头的文件grep 'check' down*就是可以通过配合linux自身的通配符来缩小查找文件来加快查找速度,linux常用的通配符| #管道符,或者(正则)> #输出重定向>> #输出追加
原创
76阅读
0评论
0点赞
发布博客于 9 月前

在docker中更改时区以及安装crontab

一,更改时区确定现在的时区是不是正确的,输入命令:date更改之前显示的是:美国时间;更改之后显示的是:dateThu Jun 4 21:05:47 CST 2020更改时区的方法:cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime将上海时区的文件复制给localtime。二,安装crontab其实crontab可能是已经安装好了的,只是没有被启动,在本次的docker中,启动命令是:/usr/sbin/c
原创
86阅读
0评论
0点赞
发布博客于 9 月前

python3与2中的特异性记录

一,负数除以正数的值负数除以正整数的值为:-1+结果值。如下:>>> -15/60-1>>> -15/16-1>>> 15/160>>> -15/10-2
原创
80阅读
0评论
0点赞
发布博客于 9 月前

在命令行输入多行代码

在命令行内输入多行python代码,在空一行之后按一下回车键,代码可自动执行需要用tab键来控制缩进
原创
1105阅读
0评论
0点赞
发布博客于 10 月前

linux 批量删掉进程

批量杀掉进程的的命令:ps uax | grep process_cut_word | grep -v grep | cut -c 9-15 | xargs kill -9查看带有‘process_cut_word’进程名,并去掉'grep'进程,然后去第9到15位置的字符,并使用'xargs'命令将进程号变成一行,最后使用'kill -9'杀掉进程。xargs命令的可以将管道或标准...
原创
84阅读
0评论
0点赞
发布博客于 11 月前

【python】相对路径和绝对路径的使用

绝对路径:直接将文件在磁盘时所在的地址赋值给变量:user_path = {}user_path["WORK_DIR"] = "/data/home/zhbei/search-personword_offlao.net/"相对路径:是以当前执行脚本所在的目录来得到其地址,如:user_path = {}user_path["WORK_DIR"] = os.path.abspat...
原创
110阅读
0评论
0点赞
发布博客于 1 年前

使用python操作redis数据库

一,连接redis数据库:在Linux环境下:redis-cli -h host -p port -a password比如:redis-cli -h 172.16.15.2008 -p 6379 -a 4uM5ormgE3YsssssssiBZvDT2dRPybFh172.16.15.2008:6379>使用Python脚本的话:def conn_redis(...
原创
103阅读
0评论
1点赞
发布博客于 1 年前

训练样本的处理以及注意事项

官网:https://scikit-learn.org/stable/index.html在经过了数据的筛选,数据的清洗、数据的特征处理,给数据加标签之后就得到了数据的训练样本了。在得到训练样本之后还是要对训练样本做进步一的处理。需要考虑的问题有,训练样本的正负样本数的比例是怎么样的。比如在实际的应用场景中正负样本的比例的10:1,那么在训练数据的时候要保证训练数据和测试数据的正负样本比例...
原创
410阅读
0评论
0点赞
发布博客于 1 年前

阿里云presto的一些操作

1,将分组之后的string字符合并起来。如下所示:select distinct item_id,array_join(array_agg(distinct name),',') from shmods.mysql_shop_item_cids a inner join shmods.mysql_s__categories b on cid=b.idwher...
原创
296阅读
0评论
0点赞
发布博客于 1 年前

doc2vec的一些操作

1,从doc2vec模型中提取出word2vec向量表,代码如下:from gensim.test.utils import common_textsfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentdocuments = [TaggedDocument(doc, [i]) for i, doc in enumerate(c...
原创
297阅读
0评论
0点赞
发布博客于 1 年前

linux空间检测

一,背景:空间总是被占满,动不动就报警,需要找出谁占用的空间多,以及谁是压死骆驼的最后一根稻草二,步骤1,先查看当前空间占用的情况df -h2,进入到将被占满的空间查看该空间中那个文件夹占用的空间大du -sh * |grep G以G的量级展示文件夹占用的空间3,查看那个文件夹最近的产生新的数据#查看当前目录下24小时内更新的的常规文件find . -t...
原创
81阅读
0评论
0点赞
发布博客于 2 年前

查看进程的启动目录

1,通过ps命令来查看数据的启动情况ps aux | grep 'name'得到任务的pid2,在'/proc'文件夹下找到启动文件夹每个进程启动之后在 /proc下面有一个于pid对应的路径,该进程下的‘cwd’就是该任务的启动目录。如下所示:其中软连接‘cwd’指定的路径就是该进程的启动目录参考链接:https://www.cnblogs.com/xy51/arch...
原创
284阅读
0评论
0点赞
发布博客于 2 年前

goland工具的使用

常用的快捷键1,跳转到函数或者变量的定义处:ctr+B2,光标跳转:Mac:cmd+alt+左右光标用处:当查看某个函数定义时会跳到其他文件下面,使用这个快捷键可以再快速在函数定义和使用函数文件之间跳转参考链接1,Intellij IDEA 使用技巧https://www.jianshu.com/p/e226c085ce692,goland的使用技巧...
原创
434阅读
1评论
0点赞
发布博客于 2 年前

1000瓶药水和10只老鼠的问题及其扩展

一,常规的问题问题背景:1000瓶药水,有一瓶有毒,小老鼠喝下去之后会在1小时死亡。问给你一小时你需要多少只老鼠才能检测出那瓶是毒药?分析问题:最优的方法是进制法去求解。因为时间是一个小时在喝下药水之后小老鼠的状态有生和死两种状态,对应着二进制中的0和1,因此可以用二进制的想法去求解。因为2^10=1024所以需要10只老鼠就可以检测出毒药。先给出解法步骤:解法:1,...
原创
803阅读
0评论
0点赞
发布博客于 2 年前

iterm2通过跳板机登陆机器,免密以及配置sz、rz命令

一,使用brew安装lrzszbrew install lrzsz下载完成之后在目录"/usr/local/bin"下会有:sz,rz,lsz,lrz等文件;二,下载脚本从git上下载:cd /usr/local/binsudo wget https://raw.github.com/mmastrac/iterm2-zmodem/master/iter...
原创
825阅读
2评论
0点赞
发布博客于 2 年前

Python编码错误:UnicodeEncodeError: 'ascii' codec can't encode 的一些总结

对于Python处理文本数据的时候经常出现的就是编码错误了,烦不胜烦,编码出错时的错误提示为:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)处理的方式有如下,摸索的情况:0,使用'iconv'命令将文件转换成utf-8格式ic...
原创
1275阅读
1评论
0点赞
发布博客于 2 年前

crontab 执行定时任务失败

遇到的问题:需要通过pyspark执行跑脚本数据,由于数据比较多,因此要分成每天每天的跑,跑一次大概需要1个半小时。因此写了一个定时执行任务,如下所示:08 13 * * * lechuan && cd /mnt/disk1/home/zhangh/howo_pere/code/explore_data && nohup sh submit.sh get_ui...
原创
89阅读
0评论
0点赞
发布博客于 2 年前

部署线上服务--Python web框架tornado初体验

启动一个简单的服务:创建hello.py文件,在里面写入:#!/usr/bin/env python#-*-coding:utf-8import reimport osimport jsonimport timeimport numpy as npimport sysimport tornado.webimport tornado.ioloop#定义处理类型cla...
原创
466阅读
1评论
0点赞
发布博客于 2 年前

【Python练习题】将数据按照分数排序

有如下数据:垃圾袋 1497043 5.063276505358443抽纸 1064344 5.28969789617728水杯 1181517 5.5993742803056765水杯 1194451 9.164971781320457水杯 84793 4.089972381569897水杯 87067 8.169655974237727水杯 91113 4.429693750...
原创
553阅读
1评论
0点赞
发布博客于 2 年前

Doc2vec的原理以及实战demo

一,测试demo代码如下:from gensim.test.utils import common_textsfrom gensim.models.doc2vec import Doc2Vec, TaggedDocumentdef doc2vec_demo(): # 得到文本训练数据 documents = [TaggedDocument(doc, [i]) for...
原创
594阅读
0评论
0点赞
发布博客于 2 年前

bert实战:安装与跑demo

Bert介绍Bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。关于Bert具体训练的...
原创
9505阅读
9评论
2点赞
发布博客于 2 年前

Word Embedding资料整理

最近要分享一次Word Embedding,虽然对这个东西早就知道,但是一直没有一个详细的梳理,趁着这次机会好好梳理一下这方面的东西。在网上看到正好有人写了相关的文章,就拿来学习了一番,再加上一些作者不屑于写的知识。word Embedding技术背景 word2vec word Embedding现今的发展 进化从未停止一,word Embedding技术背景 万物皆可Em...
原创
154阅读
0评论
2点赞
发布博客于 2 年前

rsync在跳板机之间传递文件

背景:从机器m67上面传递文件到192.8.6.7上,文件不大两个机器已经是联通的,连接的端口是58422。一,省力的方法频率很低的传数据时可以使用,需要手动输入密码准备:在192.8.6.7机器的username根目录下建立一个58422文件夹,传送的数据都会在这个文件夹下面。rsync -e 'ssh -p 58422' weekstatic_2019 zbei@192...
原创
970阅读
0评论
1点赞
发布博客于 2 年前

TensorFlow初步使用

一,安装TensorFlow安装地址:https://tensorflow.google.cn/install我是直接在conda下安装的,TensorFlow有很多版本,安装了一个cpu稳定版本,命令是:conda install tensorflow...
原创
142阅读
0评论
1点赞
发布博客于 2 年前

统计数据

统计数据时要注意的几个点:统计数据的维度和粒度,如时间维度,数据范围,统计效果。时间维度:统计的起始时间;数据范围:统计的是纯搜索query、sug、热词;统计效果:统计的是uv/gmv/订单统计效果要根据最终的目标来决定统计哪一个。...
原创
151阅读
0评论
1点赞
发布博客于 2 年前

mysql groupby字符串拼接

使用group_concat聚合函数将字符串拼接起来:select buyer_id,group_concat(query) from order_source where query !=""group by buyer_id ;buyer_id | query ...
原创
3383阅读
1评论
3点赞
发布博客于 2 年前

【Python】获取前几天的日期转成固定的格式

1,获取8天之前的数据代码如下:import timeimport datetimetoday = time.strftime("%Y-%m-%d", time.localtime()) /获取当前时间并转换成固定格式week_ago_time = (datetime.datetime.now() - datetime.timedelta(days=8)).strftime("...
原创
434阅读
0评论
1点赞
发布博客于 2 年前

【python】python2出现的SyntaxError错误

当在Python 2.X文件中写中文注释或输出中文时候,经常会出现编译错误(在Python 3.X中没有这种错误。)SyntaxError: Non-ASCII character '\xe7' in file chec.py这是因为Python 2.X的默认编码文件是用ASCII码,如果想要编译通过,则只需要在文件开头加入一行代码将文件存成UTF-8格式。看到网上给的解决办法是再行...
原创
543阅读
1评论
1点赞
发布博客于 2 年前

解决编码问题追踪

背景:现有的文件编码类型是“UTF-8 Unicode text”类型的,但是需要文件的类型是“ISO-8859 text, with CRLF line terminators”的在这样的需求之下并不能直接将文件类型转换成“ISO-8859”类型,ISO-8859有ISO-8859-1,ISO-8859-2,.....,ISO-8859-9多个形式,无法直接转成ISO-8859。 ...
原创
269阅读
0评论
0点赞
发布博客于 2 年前

【python】Python与shell的交互

一,shell调用pythonshell调用python是比较简单的,直接在.sh脚本中输入执行命令即可,跟在linux环境下没有什么两样:加上“python”是具有软连接的;python filename.py二,Python调用shellPython根据版本的不同需要使用不同的Python库,Python2的话是使用"commands"的库,执行起来非常简单:exe...
原创
1177阅读
0评论
0点赞
发布博客于 2 年前

【hive】hive的简单使用

在hive配好了之后:hive的启动:输入"hive"就能启动了。1,数据的显示show databases; --------能够显示当前的hive拥有的数据库;use database_name;----------使用这个数据库;show tables;--------能够展示当前数据库中拥有的数据表;show tables in database_name;---...
原创
111阅读
0评论
0点赞
发布博客于 2 年前

【python】对于try...except的用法

在编码中难免会遇到各种各样的问题,尤其是在对数据进行处理的时候会因为数据的各种问题而抛出异常,如果将数据舍弃太可以,所以数据都过一遍逻辑又太费时间。如果只是对出错的部分进行处理的话会很好的解决问题。Python中错误处理的语句是:try....except.....finally在有可能出错的代码前面加上try,然后捕获到错误之后,在except下处理,finally部分无论try会不...
原创
20508阅读
2评论
5点赞
发布博客于 2 年前

【Python】简单爬虫---爬取流行歌曲

背景:因为业务需要,要爬取一些经典的流行歌曲,以前接触过爬虫这次正好应用下。先回顾下:爬虫会用到的Python库:requests库、htmlparser库、BS4库。1,爬虫的小知识requests库:get方法:r=requests.get(url);这样得到的r可以用如下的函数得到其中的信息:包含url,status_code,headers,encoding以及text、j...
原创
426阅读
0评论
0点赞
发布博客于 2 年前

【mysql】mysql用join实现Python中的in操作

背景:有两种数据表,一张device表,一张keyword表。需要获取keyword表中在device表中存在device表的数据。做法就是先从device表中获取去重后所有的device数据;然后再通过device连接keyword表,取出keyword数据。执行SQL如下:with all_user as( select DISTINCT(device) from...
原创
428阅读
0评论
0点赞
发布博客于 2 年前

【python】python3多进程库multiprocessing的采坑记录

背景:想输入一个list,经过函数filter_noresult,判断该list中哪些数据是有结果哪些数据没结果,返回两个list。单进程执行的话,40w数据需要执行2小时。后来开了4个进程之后40w数据执行半小时就行。使用的是:from multiprocessing import Pool使用的是异步执行操作:pool.apply_async。主要用的是很简单的想法,先将4...
原创
994阅读
0评论
1点赞
发布博客于 2 年前

【python】list多级排序

在python3的sorted中去掉了cmp参数,转而推荐“key+lambda”的方式来排序。如果需要对python的list进行多级排序。有如下的数据:list_num = [[12,3],[18,34],[18,10],[12,45],[18,10],[8,34]]需要从小到大的排序。先比较第一个数,如果第一个数相等的话比较第二个数。代码如下:#默认的sort函数会先对第...
原创
3504阅读
2评论
1点赞
发布博客于 2 年前

【nlp】query纠错的笔记

背景:用户输入query的时候有时会出现手误的情况,这时就需要给与正确的纠正,来提高用户体验。如下图所示:用户搜索“周杰仑”会直接显示“周杰伦”的搜索结果并提升用户是否仍然搜索“周杰仑”。中文纠错:中文纠错与英文的构成区别很大,通常中文词语往往比较短,通常一个词的编辑距离会产生大量的候选集。由于拼音打字法的普及几乎所有的字都是通过拼音打字出来的,因此中文字的错误其实可以归结到拼音构成的...
原创
1591阅读
0评论
0点赞
发布博客于 3 年前

【nlp】query纠错的笔记

背景:用户输入query的时候有时会出现手误的情况,这时就需要给与正确的纠正,来提高用户体验。如下图所示:用户搜索“周杰仑”会直接显示“周杰伦”的搜索结果并提升用户是否仍然搜索“周杰仑”。中文纠错:中文纠错与英文的构成区别很大,通常中文词语往往比较短,通常一个词的编辑距离会产生大量的候选集。由于拼音打字法的普及几乎所有的字都是通过拼音打字出来的,因此中文字的错误其实可以归结到拼音构成的...
原创
1591阅读
0评论
0点赞
发布博客于 3 年前

【NLP】检索模型与排序

向量空间模型:将文章使用特征向量来表示,对于文章可以使用一些特征来表达;同样的对于用户输入的query也可以使用特征向量来表示;最后使用cos函数就可以得到query和文档的相似性。一篇文章的的特征向量可以使用tf-idf(词频-逆文档频率)来计算。向量空间的不足:对于长文本不利。由于长文本除了包含相关词之外还包含其他的词因此其相关词的权重相对较小,因此会造成长文本与query的相似性较弱。...
原创
815阅读
0评论
0点赞
发布博客于 3 年前

【python】在特征工程处理数据时遇到的坑

一,string中判断是否是纯英文要判断一个string中是否是纯英文,就使用了string.isalpha()函数来判断。但是在python3.6版本中当string为纯中文时函数isalpha()也会返回true。&gt;&gt;&gt; a = "hello"&gt;&gt;&gt; a.isalpha()True&gt;&gt;&gt; b = "你好啊"&g
原创
259阅读
0评论
0点赞
发布博客于 3 年前

【python】对文件的操作;判空、读写、拷贝

一,判空判断所给的文件是不是存在的,以免打开的时候发生错误。使用os库:import osos.path.isfile(filename)若文件不存在则返回空。判断文件夹是不是存在的os.path.exists(dirname)os库其他一些实用的方法:os.remove(filename): 删除filename文件;os.listdir(sourcedir)...
原创
558阅读
0评论
0点赞
发布博客于 3 年前

【git】git的基本使用

一,git的配置如下所示:https://blog.csdn.net/Hanani_Jia/article/details/77950594总结:先在github上注册申请账户并建立项目;然后安装软件工具Git Bash;使用Bash生成公钥:ssh-keygen-t rsa-C "your_email@youremail.com";接着将公钥.pub复制到github的“SS...
原创
189阅读
0评论
0点赞
发布博客于 3 年前

【python】多线程之坑

由于性能需要。加上没有使用集群,因此在代码中使用了多线程,但是由于python中全局解释锁GIL的存在造成使用多线程的时候并不能起到作用,在使用threadpool时,设置线程数并不能起到作用。因此应该使用多进程才是正确的,使用multiprocessing库可以使用多进程的方式使用之。不过使用的时候要确保能异步执行的,先将数据分成n份,然后将线程再分成n个,每个线程执行一份数据,最后将结果合...
原创
2538阅读
0评论
0点赞
发布博客于 3 年前

【mysql】获取mysql中不重复的数据

假设情景如下:user_table的字段如下:keyword \t c_time \t heatkeyword是字符串的具有重复性的,c_time表示的是时间,heat是整形常数。如下所示:代码如下:select keyword, max(created_at) as latest_created_at ,max(search_index) as latest_pu...
原创
2398阅读
0评论
0点赞
发布博客于 3 年前

【python】python3的包pymysql的坑

由于坚定的想坚持用python3,所以链接mysql的时候使用pymysql库,以下是遇到的坑:1,连接的时候port是一个数字不是字符串如下所示:mport pymysqlconn = pymysql.connect(host='127.0.0.1',port = 3306,user='root',passwd='root',db = 'mysql')如果写 port =...
原创
1036阅读
0评论
0点赞
发布博客于 3 年前

【linux】对文件的用户权限的修改

使用root权限可以将文件或者文件夹的权限更改为其他权限;1,更改用户权限:使用'll' 或'ls -l' 可以查看文件的用户权限:第三列是文件拥有者,第四列是所属的用户组。使用"chown账号名称文件或目录" ,如图把文件的所属者更改为zhb:"chown zhb get_hotword*****"通过'chown -R'命令可以将文件夹及其子文件里面文件的权限...
原创
139阅读
0评论
0点赞
发布博客于 3 年前

【python】python环境管理工具pipenv的使用

pipenv在使用过程中会生成一个虚拟环境,使用之是可以替代pip工具的。在该环境中会生成Pipfile文件,然后在移动到生成环境的时候,执行pipenv install 就可以将该环境下的库以及依赖库一下下来。...
原创
520阅读
0评论
0点赞
发布博客于 3 年前

【NLP】基础:

一,词向量的表达1,最初的词的表示是使用&amp;quot;one-hot&amp;quot;编码来的,对于一个单词使用数组将其在字典中所在的位置处标1,其他标0,这样来表示一个字典中的词:wordi = {0,0…1…0}这样会造成很大的稀疏性,而且两个单词直接的距离永远是根号2。2,然后是词袋模型:bag of word ,词在文档中不考虑顺序,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本...
原创
96阅读
0评论
0点赞
发布博客于 3 年前

【python】子目录的调用

主要是论述Python中的调用父目录或者子目录的情况有如下图示:如上图所示在parent_dir目录中有一个py文件test.py和两个文件夹,两个文件夹中有各自有相关的文件。case1,调用父目录的文件;如在a.py文件中调用test.py文件。需要在在文件头部加入如下代码:import syssys.path.append(&amp;quot;..&amp;quot;)import test然后就可以在a.p...
原创
1911阅读
0评论
1点赞
发布博客于 3 年前

【我爱数学】关于指数函数的一些基础

一,指数函数如下图所示:(1)由指数函数y=a^x与直线x=1相交于点(1,a)可知:在y轴右侧,图像从下到上相应的底数由小变大。图3 图像随底数变化关系图3 图像随底数变化关系(2)由指数函数y=a^x与直线x=-1相交于点(-1,1/a)可知:在y轴左侧,图像从下到上相应的底数由大变小。(3)指数函数的底数与图像间的关系可概括的记忆为:在y轴右边“底大图高”,想象一下2的2次幂和...
原创
315阅读
0评论
0点赞
发布博客于 3 年前

【php】基础用法

php语言的第一篇文章开始的感觉PHP语言跟shell脚本有些相似,另外跟html语言也比较像。一些区别:1,开始与结束:PHP代码的开始结束标志为:&amp;amp;amp;amp;amp;amp;lt;?php *code*?&amp;amp;amp;amp;amp;amp;gt;2,变量php变量的定义与python类似,不需要申明变量的类型,直接将数据赋值给变量即可。PHP的变量对大小敏感。变量的定义和使用的时候是以“$”开头,变量名的定义形式与C++一致。
原创
57阅读
0评论
0点赞
发布博客于 3 年前

【python】启动一个http服务,两个机器之间数据交互

使用场景:想要在浏览器下查看某个机器下的目录文件;想使用wget临时的下载某个机器下的文件。首先在目标机器下使用python启动一个http服务:python -m SimpleHTTPServer ---------这样会启动一个端口为默认端口8000的HTTP服务。如果想要自己定义端口的话可以:python -m SimpleHTTPServer 8080 ----...
原创
1801阅读
0评论
0点赞
发布博客于 3 年前

shell/python 调用mysql

一,shell调用mysql坑:在shell执行mysql语句的时候密码一定要与“-p”写在一起:$MYSQL -h $HOST_NAME -u $USER -p"$PASSWORD" -e "${SHOWBASE}"分开写会出错。二,python调用mysql1,python2连接mysql:import MySQLdb#连接数据库conn = MySQLdb.con...
原创
637阅读
0评论
0点赞
发布博客于 3 年前

【刷题】去除数组中唯一重复的数

题意:一个数组,里面只有一个重复的数,找出这个重复的数,并考虑时间复杂度。分析:1,如果去过该数组是存在某个范围之内,且占满了该范围,只多了一个数,如数组有101个数,数的范围是[1, 100]。就是说该数组中的数包含了1到100所有的数,且第101个数也是在[1, 100]范围内的。那么可以用该数组全部数字的和再减去sum(1+2+...+100),得到的数字就是重复的数。2,如...
原创
226阅读
0评论
0点赞
发布博客于 3 年前

【linux】建立软链接

linux下的软链接类似于windows下的快捷方式ln -s python3 python如上所示:建立python3的软连接python,其中python3是已经存在的原文件,python是还没有建立的链接名,其作用是进入了python就等于是进入了python3了。删除软连接的时候是:rm -rf python 而不是rm -rf python/...
原创
942阅读
0评论
0点赞
发布博客于 3 年前

Hadoop Streaming的使用

资料来源:https://zhuanlan.zhihu.com/p/34903460重点记录:mapper的角色:hadoop将用户提交的mapper可执行程序或脚本作为一个单独的进程加载起来,这个进程我们称之为mapper进程,hadoop不断地将文件片段转换为行,传递到我们的mapper进程中,mapper进程通过标准输入的方式一行一行地获取这些数据,然后设法将其转换为键值对,再通过标...
原创
729阅读
0评论
0点赞
发布博客于 3 年前

【python】Anaconda的一些使用和调试

一,使用jupyter notebook新版本的Anaconda,不知为何在安装的时候目录下面没有jupyter notebook的按钮:方法:打开“cmd”,然后cd到需要查看ipynb文件的目录下面。输入“jupyter notebook”命令来打开即可。二,常用的一些命令1,"conda info --envs" 查看当前环境下创建了多少的python环境。...
原创
2006阅读
0评论
0点赞
发布博客于 3 年前

威尔逊区间

由于工作原因要使用威尔逊区间来计算POI与TD之间的分数,现在总结一下。 对于召回的一些数据如何给这些数据来排名,然后根据这个排名来显示数据,这就需要使用“威尔逊区间”了。首先我们讨论的情况是每个项目只有两种选择,且项目之间是相互独立的,就是项目符合“二项分布”的。如[1]中所举的例子中可以看出,无论得分情况为得分 = 赞成票 - 反对票还是得分 = 赞成票 / 全部
原创
3871阅读
0评论
1点赞
发布博客于 4 年前

【C++】继承

对于继承来说,其基本准则为: 1,public可以被任意实体访问; 2,protected只能被子类以及自己的成员函数访问; 3,privated只能被自己的成员函数访问; 4,基函数的类型,继承方式共同决定了子类的类型。其优先级为:private > protected > public例如,继承方式为“public“,基函数类型为“protected“那么子类的类型为“protected
原创
249阅读
0评论
0点赞
发布博客于 4 年前

【C++】C++封装、继承、多态小结

C++封装、继承、多态 面向对象的三个基本特征面向对象的三个基本特征是:封装、继承、多态。其中,封装可以隐藏实现细节,使得代码模块化;继承可以扩展已存在的代码模块(类);它们的目的都是为了——代码重用。而多态则是
转载
270阅读
0评论
0点赞
发布博客于 4 年前

【C++】工作中遇到的难点

一,explicit C++ explicit关键字用来修饰类的构造函数,表明该构造函数是显式的。 构造函数有显示和隐式之分。构造函数默认的式隐式的,如下:1. class MyClass 2. { 3. public: 4. MyClass( int num ); 5. } 6. //. 7. MyClass obj = 10; //ok,convert int to
原创
500阅读
0评论
0点赞
发布博客于 4 年前

【C++】两个字符串相加

题意:Given two binary strings, return their sum (also a binary string).For example,a = "11"b = "1"Return "100".两个字符串相加
原创
6320阅读
0评论
1点赞
发布博客于 4 年前

【机器学习】pyspark中RDD的若干操作

pyspark中RDD的若干操作
原创
10347阅读
2评论
1点赞
发布博客于 4 年前

【机器学习】pandas中Series和DataFrame

一,Series 1,Series的定义 Series类似于一个字典,可以通过index参数定义其“key”值。Series使用pandas.Series来定义。 如下所示:s = pd.Series([7, "Beijing", 2.17, -12345, "Happy"], index=["A", "B", "C", "D", "E"])print(s)结果为:A 7
原创
1540阅读
0评论
0点赞
发布博客于 4 年前

【机器学习】使用Hadoop Streaming来用Python代码完成MapReduce

介绍了,Hadoop Streaming原理 ,map-reduce的重点,最后通过Hadoop Streaming来处理经典的词频统计的问题,并给出了map和reduce阶段的代码。
原创
864阅读
0评论
0点赞
发布博客于 4 年前

【C++】char* 与char []定义的区别

char* 与char []定义的区别
原创
4806阅读
0评论
2点赞
发布博客于 4 年前

【C++】数组指针和指针数组

数组指针指针数组
原创
207阅读
0评论
0点赞
发布博客于 4 年前

【C++】动态规划方法以及Maximum Length of Repeated Subarray

一,动态规划 动态规划的本质是递归,动态规划在递归的基础上通过空间来换取时间,来解决问题。它是通过:原问题(N)—>子问题(N-1)—>原问题(N),这样的方式将大的问题分解成一个个小的问题来求解,通过解决一个个小的问题最终将大问题解决了。 二,寻找两个数组中相同最长连续子数组问题
原创
129阅读
0评论
0点赞
发布博客于 4 年前

【C++】判断是不是2、3、4的幂数

判断是不是2的幂数。若n是2的幂数的话,那么n的二进制中含有1的只有1位;.判断是不是3的幂数判断是不是4的幂数//判断n是不是4的幂数
原创
636阅读
0评论
0点赞
发布博客于 4 年前

算法的评价标准:ROC,假阳性,mape

1,ROC曲线去医院做检查化验单或报告单会出现(+)跟(-),其分别表型阳性和阴性。比如你去检查是不是得了某种病,阳性(+)就说明得了,阴性(-)就说明没事。 科研人员在设计这种检验方法的时候希望知道,如果这个人确实得了病,那么这个方法能检查出来的概率是多少呢(真阳率)?如果这个人没有得病,那么这个方法误诊其有病的概率是多少呢(假阳率)? 如下表所示: 金标准就是实际中的病人阳性和阴性的情
原创
4070阅读
0评论
0点赞
发布博客于 4 年前

【面经】本周面经流水账

本周的各种面试,公司有大有小,面试时间有多又少,面试难度有易有繁,思想深度有浅有深,面试官有水有神。
原创
350阅读
0评论
0点赞
发布博客于 4 年前

【C++】数组中后前差值最大的值

LeetCode 121Best Time to Buy and Sell Stock 题意:Say you have an array for which the ith element is the price of a given stock on day i. buy one and sell one share of the stock
原创
839阅读
0评论
0点赞
发布博客于 4 年前

【机器学习算法】LR以及正则项

LR算法以及L1、L2正则项小议logistic回归基于线性分类WT,使用sigmoid函数将线性函数映射到(0,1)空间中去。于是有假设H@(x),表示的是x发生的几率。若结果值大于0.5则表示是正样本否则是负样本。
原创
5082阅读
0评论
0点赞
发布博客于 4 年前

【C++】数组中连续子数组的最大和

题意:Find the contiguous subarray within an array (containing at least one number) which has the largest sum. For example, given the array [-2,1,-3,4,-1,2,1,-5,4], the contiguous subarray [4,-1,2,1] 计算数组中连续子数组
原创
1380阅读
0评论
0点赞
发布博客于 4 年前

动态规划,建桥问题代码

就是要在一条河的南北两边的各个城市之间造若干座桥.桥两边的城市分别是a(1)...a(n)和b(1)...b(n).这里的要求a(i)只可以和b(i)之间造桥,同时两座桥之间不能交叉.希望可以得到一个尽量多座桥的方案.
zip
发布资源于 4 年前

【C++】动态规划:最长递增子序列和建桥问题

问题描述: 求一个一维数组的最长递增子序列,时间复杂度尽可能小。 例如:数组 1, -1,2,-3,4,-5,6,-7它的最长递增子序列是 1,2,4,6,最后返回4.
原创
527阅读
0评论
0点赞
发布博客于 4 年前

【C++】数数:用数字来数数Count and Say

Count and Say题目:The count-and-say sequence is the sequence of integers with the first five terms as following:1. 1;2. 11 ; 3. 21 4. 12115. 1112211
原创
593阅读
0评论
1点赞
发布博客于 4 年前

【C++】去除数组中的某数且不使用额外空间

题目:Given an array and a value, remove all instances of that value in place and return the new length. Do not allocate extra space for another array【C++】去除数组中的某数且不使用额外空间
原创
1160阅读
0评论
0点赞
发布博客于 4 年前

【python】生成笛卡尔积(交叉表)DataFrame和numpy

有文件A:,B:,希望通过A,B生成C: 就是笛卡尔积操作。 一,当数据在numpy数组中,数据为:A=['a','b','c','d']B=['1','2','3','4']其实方法一的思想很简单粗暴:A,B元素存储在list中,将A中每个元素复制len(B)次,然后将之与B进行行合并;得到的结果再与result列合并。最后输出result
原创
12430阅读
0评论
0点赞
发布博客于 4 年前

【python】统计文件中的字符串数目

统计文件中的字符一个txt文件中已知数据格式为:C4D/suC4D/max/AE统计每个字段出现的次数,比如C4D、maya
原创
9174阅读
0评论
1点赞
发布博客于 4 年前

【C++】反转单链表(面试的时候屡次被问到)

问题:已知一个单链表,将这个单链表反转过来,并返回反转之后的单链表。 思想:使用头插法的思想,将原本单链表中的数据反转,即每次插入数据的时候,不是将数据放到链表的末尾而是放到链表的头部。
原创
483阅读
0评论
0点赞
发布博客于 4 年前

【面试】本周面试流水账

本周面了两面,一个是某大厂的语音部,一个某在线教育的一线公司,面的都是机器学习相关的岗位。
原创
195阅读
0评论
0点赞
发布博客于 4 年前

【C++】去除排序数组中重复的元素

去除排序数组中重复的元素
原创
3862阅读
0评论
0点赞
发布博客于 4 年前

【C++】字符串中的括号是否匹配

题目: Given a string containing just the characters ‘(‘, ‘)’, ‘{‘, ‘}’, ‘[’ and ‘]’, determine if the input string is valid.The brackets must close in the correct order, “()” and “()[]{}” are all valid
原创
2523阅读
0评论
0点赞
发布博客于 4 年前

【C++】string数组最长前缀

题目:Write a function to find the longest common prefix string amongst an array of strings. 找出字符串中字符的最长前缀。
原创
312阅读
0评论
0点赞
发布博客于 4 年前

【C++】将罗马数字转换成阿拉伯数字

题目:Given a roman numeral, convert it to an integer. Input is guaranteed to be within the range from 1 to 3999. 将罗马数字转换成阿拉伯数字。 方法一:从前往后的计算方法二:从后往前计算
原创
3461阅读
0评论
2点赞
发布博客于 4 年前

【C++】数组中两元素之和为目标值

题目:Given an array of integers, return indices of the two numbers such that they add up to a specific target. 寻找数组中两元素之和为目标值的数值的下标。
原创
258阅读
0评论
0点赞
发布博客于 4 年前

【C++】Reverse digits of an integer

题目:将整数翻转过来。如:Example1: x = 123, return 321Example2: x = -123, return -321本题在写的时候要注意两个问题: 1,当数字为100之类的数的时候应该返回什么数? 2,注意数字的翻转的时候会出现越界的情况,如x=100000003时,翻转后的数字是会越界的。
原创
209阅读
0评论
0点赞
发布博客于 4 年前