自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

转载 lightgbm模型通过pmml存储,在java中调用

版权声明:本文为转载文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/luoyexuge/article/details/80087952lightgbm模型是微软开源的一个模型,比xgboost快个10倍左右,原始训练使用的是c++,也提供了python接口,晚上摸索了下lightgbm在python中训练,...

2019-11-27 10:16:54 1833

转载 python中将 \\uxxxx转换为 Unicode字符串

今天碰到一个很有意思的问题,需要将普通的 Unicode字符串转换为 Unicode编码的字符串,如下:将 \\u9500\\u552e 转化为 \u9500\u552e 也就是 销售 。乍一看感觉挺简单的,用 re 库将前面的反斜杠去掉即可,但是在替换的过程中会抛出如下错误:Traceback (most recent call last): File "<pyshell#...

2019-08-10 21:26:38 1726

原创 fm的python实现

参考gitlab上的代码,因为不能用cython,所以用python2又写了一遍,之后准备加入多分类方法,过会写。fm原理详解:这篇说的特别好。fm推荐算法原理。代码如下# encoding: utf-8# Author: czw import numpy as npimport sysfrom time import timefrom sklearn.model_se...

2019-05-06 19:31:10 1243

原创 mnist数字集识别 xgboost+cnn

因为之前想做字母识别,没找到训练集(找到的有点少),所以现在先写了点xgboost与cnn训练mnist训练集。效果挺好,但是问题是自己有一些数字图片,也需要识别,比如下面,但是效果就很差,后来发现是因为数字不是很居中...后来做了些前期图片预处理,不知道有没有什么方法不用做预处理的。两个方法的代码都放下来了,数据集就是mnist的。很乱,懒得整理,将就看看吧。反正挺简单的。接下来准备...

2018-12-06 11:12:07 2956 7

原创 一个爬虫练习游戏:黑板课爬虫闯关

网址:http://www.heibanke.com/lesson/crawler_ex00/大概用了一小天的时间吧,把这五关给过了,还挺好玩的。推荐小白玩玩。直接po代码了。我装pytessetact总有问题,之后其实可以直接训练一个cnn来做的,但是现在先po代码了,晚上回来随便弄弄。然后我第五关验证码就是人工把图片show出来,然后人工识别输入结果,很脑残。不管了。import...

2018-12-02 17:35:59 2129

原创 头条的动态页面爬取+百度下拉搜索框

写了一个简单的头条动态页面爬取代码。比如想获取这些图片或者title,但是直接open(‘https://www.toutiao.com/search/?keyword=%E7%8C%AB'),什么内容都没有,在chrome的开发者模式中可以看到,当页面有交互行为JS触发调度,JS发出一个http请求,此时找到这个请求即可,我是在network里找到的,有点难找,但是免得下其他插件了。此时...

2018-11-20 15:48:11 3150 2

原创 hihoCoder229——Same Letters In A Row

很久没有做hihocoder了,之前刷leetcode,其实工作找完了不知道刷这些有什么用,可能训练下代码的写法吧,双指针的就写得略烂,将就看看吧,有设置几个earlyStoping,这样可能时间优化一些。思路是hiho网站的discuss的分析,就不详细介绍了。num = int(input().strip())letter = list(input().strip())tot = ...

2018-11-19 12:07:12 177

原创 一个简单的百度贴吧爬虫&&百度搜索爬虫&&模拟登录菜鸟踩坑记(requests、lxml)

这几天在学爬虫,试了下简单的,不涉及scrapy框架,库用的lxml、requests,python3,不涉及网页界面交互。1、百度贴吧爬虫爬取贴吧贴子标题、发贴人信息(性别、关注贴吧)等,后来根据数据做了个词云,代码跟词云戳下:   ...

2018-11-18 16:49:33 665

原创 转行经验

好久没有写博客,前段时间一直在秋招,然后总结了很多数据挖掘的知识点,但是都没分享出来。然后就出去玩啦,更没有更新博客了。博主是真的佛系妹子,因为暑期实习留用给了offer,然后秋招的时候尝试投AT,都无果(简历挂的那种orz)。后来有一些公司给了不错的offer。后来实习公司给的待遇还行,就没怎么折腾,直接跟男票去玩了。lz是某C9硕士,非cs,工科大类。研一下的时候才准备转行,那个时候方...

2018-11-11 21:07:40 1702

原创 865. 具有所有最深结点的最小子树

两个思路吧,第二个略麻烦。第一个是一次dfsclass Solution: def dfs(self, root): if not root: return (root, 0) left_dict = self.dfs(root.left) right_dict = self.dfs(root.right)...

2018-08-04 16:08:06 560

原创 477. Total Hamming Distance

题目如上,即求10^4个数间二进制距离之和。暴力匹配然后对每个pair求距离会超时,这里有一个方法:1、每次遍历一遍数据,找到每个数据的LSB(最低有效位),然后统计LSB为1、0的个数,那么距离dis+=count(1)*count(0),再将该数据右移一位。2、若在遍历的时候发现该数据为0,则将为零的zerocount++,直到zerocount == num.size,则停止循环。class...

2018-05-24 10:35:06 213

原创 33. Search in Rotated Sorted Array

python写很简单。class Solution: def search(self, nums, target): try: ans = nums.index(target) except: ans = -1 return ans常规写的话,我看到一个比较好的二分法,就是确定mid的位置是属于...

2018-05-23 00:08:56 137

原创 39. Combination Sum & 40. Combination Sum II

这题很简单,主要是push、pop会花比较多的时间,做个预判,不要所有的都先push,80%多吧。class Solution {public: vector&lt;vector&lt;int&gt;&gt; ans; vector&lt;int&gt; ans_temp; void dfs(vector&lt;int&gt;&amp; candidates, ...

2018-05-21 22:37:58 245

原创 17. Letter Combinations of a Phone Number

今天的题目很简单,主要就是迭代。注意:我一开始用的是vector&lt;char&gt;,然后好像单个的char是不能变成string,还是python方便啊。好像需要先转换成一个char[] = {ch, 0},才能变成string,原因如下。class Solution {public: map&lt;char, vector&lt;string&gt;&gt; digi = {{'...

2018-05-20 22:38:31 136

原创 16. 3Sum Closest

承接上一题,也是经典的3Sum,计算sum到target最近的距离,今天有点事情有点忙,没有认真做,先做了一个暴力解决的,效率很低(因为test集数据量很小,所以ac了),自己试着优化了一下,边界判断出了点问题。明天早上优化,以后刷题不能放在晚上啊。最近看《模式识别》,感觉第二章有点难懂,都是模型问题,很基础的数学问题了。计划都没完成,共勉吧。class Solution {public: ...

2018-05-19 23:54:19 136

原创 15. 3Sum

春招终于结束了,lz今早结束了最后一个面试。前几天签了网易游戏的offer,然后再投了一个银行,很奇怪,金融的同学不想去银行,我们这种传统工科的倒想去。围墙,然后现在决定每天刷一题,汲取春招的教训(笔试挂了好多的泪奔)。今天是一个双指针的题目,也是很经典的3sum,就是在数组中求解任意拿3个数和为0的组合(no duplicate)。大概思路是对每个数字,都双指针遍历后面的数字(i+1 — len...

2018-05-18 23:42:20 135

原创 《技术之瞳》一题分析

最近看《技术之瞳》,看到了这一题。某电子商务网站进行A、B两种推荐算法的效果对比测试,对用户的访问请求按照1:9的比例随机分配给A和B两种算法处理。产生推荐结果后,按照两种指标对比两种算法产生的结果好坏:第一种指标是CTRPV=该算法下用户的点击展现次数/该算法下所有的展现次数,第二种指标是CTRUV=该算法下有点击的用户数/该算法下所有的用户数。假定每个用户会对该推荐服务2次访问,如果A和B的C...

2018-03-18 09:56:50 304

原创 hihoCoder184——满减优惠

题目1 : 满减优惠时间限制:10000ms单点时限:1000ms内存限制:256MB描述最近天气炎热,小Ho天天宅在家里叫外卖。他常吃的一家餐馆一共有N道菜品,价格分别是A1, A2, ... AN元。并且如果消费总计满X元,还能享受优惠。小Ho是一个不薅羊毛不舒服斯基的人,他希望选择若干道不同的菜品,使得总价在不低于X元的同时尽量

2018-01-08 15:44:45 966 2

转载 pycharm使用github

pycharm使用github绑定账号File-settings 在搜索框输入git会出现github,然后在旁边输入你github的用户名和密码,可以点击”test”测试一下,如果出现:Connection successful说明连接成功。这里推荐点上using ssh然后点击下面的Apply创建Github的仓库

2017-12-15 15:00:48 225

转载 Can't connect to local MySQL server through socket '/tmp/mysql.sock'

Mac终端运行mysql出现Can't connect to local MySQL server through socket '/tmp/mysql.sock'今天突然出现了这个问题,然后按照这个教程解决了。忙起来了,感觉实习就是数据库连接员,还是希望能够做好吧,一忙起来智商就不够了。

2017-12-14 00:55:58 229

原创 面试的一些经验

找实习面试,遇到了很多问题,其实都是基本的问题,还是自己在自学的过程中不求甚解,于是每每回答不上来又尴尬又后悔。第一家是图谱科技,电话面试,我当时才看了Stanford的dl一半的课程,中间还有的跳过了。然后问的问题主要是:1、做过什么项目(demo也行)(我什么都没做过,当时就是找网上的例子跑了一遍mnist)2、简单介绍SVM(SVM的理解相当重要,第三家公司还问了损失函数,hin

2017-12-12 19:04:25 297

原创 关于核函数的理解

 scikit-learn 支持向量机算法库使用小结 支持向量机(三)核函数 我们会想,有没有存在一种核函数,他可以表述无限大空间的变换呢?利用一个泰勒展开,就可以拆成一个无线维度的转换了。我们把这个种核函数叫做高斯核函数。(排版花里胡哨的,不喜欢看)学习笔记——支持向量机svm(3)kernel trick(核函数) 面试了几家,发现自己的基础薄弱厉害,还是好好再...

2017-12-11 15:58:50 542

转载 约束优化方法之拉格朗日乘子法与KKT条件

约束优化方法之拉格朗日乘子法与KKT条件很好的文章,可以用来了解KKT条件,顺带了解拉格朗日对偶

2017-12-11 15:01:01 300

原创 hadoop、hive搭建

我是搭建的hadoop2.9.0,找了几个教程,我是按照这个教程搭建成功的:Hadoop-2.8.0 开发环境搭建(Mac)每次运行前都加载source ~/.bash_profile,然后cd $HADOOP_HOME/sbin最后验证hadoop:如果在启动过程中没有发生任何错误启动完成之后,在命令行输入: jps如果结果如下:3

2017-12-08 09:33:34 291

原创 自动正则表达式生成网站

直接给网站:http://www.txt2re.com/index-python.php3进去了就会操作,先输入一个待匹配的例子,然后match,在step2里面选择字符,最后在step3里面选择语言就可以了。方便很多,不用每次都查半天。

2017-12-07 11:10:05 13804

转载 c++ 11个性特性

原博:前两天面试,说到了c++新特性的yoC++11标准由国际标准化组织(ISO)和国际电工委员会(IEC)旗下的C++标准委员会(ISO/IEC JTC1/SC22/WG21)于2011年8月12日公布[2]  ,并于2011年9月出版。2012年2月28日的国际标准草案(N3376)是最接近于C++11标准的草案(仅编辑上的修正)。此次标准为C++98发布后13年来第一

2017-12-07 11:05:51 248

原创 lstm做NER

1、我在网上下载了人民日报语料库199801.txt文件,nerTest将该文档里的全角符号改为半角符号然后利用nerTest_1文件对该语料库进行预处理:将语料库中的英文、数字、不正规的写法去除2、将语料库分为train、test、valid数据集(7:2:1)3、将语料库中的word与tag分开,然后将所有的word与tag合并排序,并且建立tag_to_id、word_to_id

2017-12-06 14:36:51 2479

原创 rnn的一个例子

直接po代码,简单的rnn加法器,改自github,不用TensorFlow等框架,可实现多位(超过8位)加法。import copy, numpy as npnp.random.seed(0)def sigmoid(x): output = 1 / (1 + np.exp(-x)) return outputdef sigmoid_output_to_de

2017-11-22 23:15:30 2371

转载 cs231n笔记

cs231n笔记,知乎翻译全篇(1年前),看起来比看视频快一些。

2017-11-19 14:51:04 500

原创 Full Binary Tree Picture——hihoCoder177

题目1 : Full Binary Tree Picture时间限制:10000ms单点时限:1000ms内存限制:256MB描述Let's draw a picture of full binary tree using ASCII characters. In this picture nodes are represented by

2017-11-19 13:25:55 310

转载 神经网络入门

原文链接获取代码:接下来,为了匹配文章的内容,所有的代码都会在Github上以iPython笔记的形式提供。本文中我们会从头实现一个简单的3层神经网络。我们不会推导所有的数学公式,但会给我们正在做的事情一个相对直观的解释。我也会给出你研读所需的资源链接。这里假设你已经比较熟悉微积分和机器学习的概念了。比如,你知道什么是分类和正则化。当然你也应该了解一点优化技巧,如梯度下降是

2017-11-17 14:32:43 371

原创 将自己的图像数据转为mnist可用

自己有一些图像数据,想在TensorFlow上跑,但是需要预处理,于是昨天弄了一会才把预处理弄完,很渣,仅供参考。利用pandas.read_csv( )之后,变成了x_train(None,784)与y_train(None,1)【label标志】,导入之后是dataFrame格式,现在要把y_train变为(None,10)。1、先导入数据x_data = pd.read_

2017-11-17 11:05:39 6485

转载 sklearn技巧总结

【转】Scikit-learn技巧(拓展)总结总结的很好,拿来啦。同学说现在都用pytorch,等把TensorFlow框架看完了就学学这个包。使劲长肉中。

2017-11-15 18:57:01 227

原创 Constraint Checker——hihoCoder176

描述Given a set of constraints like 0NM and values for all the variables, write a checker program to determine if the constraints are satisfied. More precisely, the format of constraints

2017-11-14 20:53:32 256

原创 Mac的xgboost安装

lz又是拿来主义啦,亲测可行最近在mac上用到xgboost库,安装时遇到颇多大坑,网上查了很多答案几乎都是win上的问题,没遇到理想的,自己也就摸着石头把几个大坑给填了,总结一下,给后人少走点弯路。1.错误倘若直接 pip install xgboost时,会出现Command "python setup.py egg_info" failed with error

2017-11-09 00:27:36 289

原创 sklearn中的Pipeline机制

又是看到别人的文章来的

2017-11-08 18:41:55 525

原创 机器学习中的范数

这篇文章挺好的,又是拿来主义,连复制粘贴都懒得的我。

2017-11-08 10:27:55 302

原创 python——linalg说明

先给文档页:说明文档linalg = linear + algebra范数是对向量(或者矩阵)的度量,是一个标量(scalar):norm(x, ord=None, axis=None, keepdims=False)参数说明计算方法默认二范数:ℓ2x21+x22+…+x2n‾‾‾‾‾‾

2017-11-07 21:17:24 12436 1

原创 关于SVM

网上有好多svm的详解,包括sklearn里面的svm详解:机器学习十大算法总览(含Python3.X和R语言代码)支持向量机(三)核函数(这篇不错)转载:scikit-learn学习之SVM算法感觉自己真实拿来主义啊都不操心的

2017-11-07 18:13:47 279

原创 scikit-learn一些常用算法

这里写了一些常用算法手册

2017-11-07 09:20:55 716

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除