自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据挖掘爱好者

关注搜索、推荐相关算法

  • 博客(261)
  • 资源 (4)
  • 论坛 (34)
  • 收藏
  • 关注

原创 pandas read_csv 读取数据中包含双引号

如果数据中的某个字段有引号,引号里面有逗号(逗号也是字段分隔符),如:1,"a,b,c"需要用下面的方法读取:import pandas as pddf=pd.read_csv("complext.csv",skipinitialspace=True,escapechar='\\',quotechar='"')df.to_csv("new.csv",sep="\x01")...

2020-08-08 08:01:57 784

原创 读取txt中的字段key,然后编号再输出

import pandas as pdsep="|"def read_key(dict_key, arr_fileld, idx=[]): if len(idx) == 0: return for index in idx: keys = arr_fileld[index].split(",") for key in keys: if key not in dict_key: di.

2020-06-21 14:52:50 100

原创 python pip 设置阿里云的源,更新速度超级快

根目录上设置一个文件myhome$ cat .pip/pip.conf[global]trusted-host = mirrors.aliyun.comindex-url = https://mirrors.aliyun.com/pypi/simple

2020-06-15 09:39:37 324

原创 阿里云endpoint

oss的endpoint:https://help.aliyun.com/document_detail/31837.html?spm=5176.11065259.1996646101.searchclickresult.3c7e7a0d1SQo0Q#title-qvx-r3a-xr4

2020-06-13 12:07:17 183

原创 tensorflow 的 hashtable 和index table 读取,求均值向量,缺失值处理

import tensorflow as tfprint(tf.__version__)list_arr = [9, 8, 6, 5]value_arr = [0, 1, 2, 3]tf_look_up = tf.constant(list_arr, dtype=tf.int64)tf_value_arr = tf.constant(value_arr, dtype=tf.int64)table = tf.contrib.lookup.HashTable(tf.contrib.lookup.

2020-06-07 17:15:45 402

原创 tensorflow 通过TextLineDataset dataset.map 读取数据

这样读取数据比较麻烦,因为map是一行行读取,需要自己把数据整理成列的方式。处理起来还是比较麻烦,用decode_csv可以直接把数据处理成列的方式,简单很多。import tensorflow as tffrom tensorflow.contrib.lookup import HashTablefrom tensorflow.contrib.lookup import TextFileIdTableInitializerfrom tensorflow.contrib.lookup im.

2020-06-07 14:50:36 502

原创 递归遍历子目录改后缀名(批量文本改名rename)

#!/bin/sholdsuffix="txt"newsuffix="sql"dir=$(eval pwd)function getdir(){ for element in `ls $1` do dir_or_file=$1"/"$element if [ -d $dir_or_file ] then getdir $dir_or_file else suf.

2020-06-06 18:57:33 156

原创 样本查询embedding向量

import tensorflow as tf#生成10*5的张量p=tf.Variable(tf.random_normal([10,5]))# 模拟两个样本中的2个稀疏字段的embedding,有4个元素1,3,2,4b = tf.nn.embedding_lookup(p, [[1, 3],[2,4]])# b 的维度是2 * 2 * 5 ,batch=2 ,field s...

2020-05-03 10:36:26 200

原创 深度学习 tensorflow 三维矩阵乘法(batch 迭代必须搞懂的矩阵乘法,维度增加)

import tensorflow as tf# 2 * 2 * 2 的embedding 矩阵 , 一个batch,每个样本有f个字段,每个字段有k维# 那么矩阵的大小就是batch * f * kembedding_index = tf.constant([[[0.1,0.2], [0.3,0.2]], ...

2020-05-03 09:32:40 1100

原创 pandas 对一列做变换,手工版的labelEncoder 和 labelEncoder

import pandas as pddf = pd.DataFrame({"key": ["aa", "bb", "cc"]})dict = {"aa": 1, "bb": 3, "cc": 2}df_map = df["key"].map(dict)print("raw:\n", df.head())print("mapped:\n", df_map)raw: ...

2020-05-03 08:46:14 521

原创 阿里云提交spark 任务找不到 project,是因为endpoint不对

阿里云提交spark 任务找不到 project,发现是因为spark -odps 的endpoint 不正确,从阿里云project 的配置(https://setting-cn-beijing.data.aliyun.com/#/dataSource)中找到endpoint,然后修改endpoint 之后就正确了。 ./bin/spark-submit --jars cupid/o...

2020-04-29 20:08:47 125

原创 keras的自定义 layer和Model

本文对https://www.cnblogs.com/zdm-code/p/12245906.html 里面的一些细节做了修改,model里面增加了一层softmax。import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layers,Sequential,optimi...

2020-04-19 12:24:37 514

原创 复旦中文文本分类语料库 结构化解析版本

搜狗新闻文本分类预测没有整理为好用的格式,花了点时间修改为\u0001 分割的数据create table sougou_text( id bigint, cate string, wenxian string, origin_from string, origin_city string, origin_num string,...

2020-04-06 15:11:30 461

原创 如何在linux命令行(终端)执行ipynb 文件。可以不依赖jupyter。

安装 runipypip install runipy终端执行ipynbrunipy <YourNotebookName>.ipynb在终端命令行执行shell脚本,(也可以在crontab 中执行):(base) [recommend@app-0-5-B-006 script]$ cat run1.sh#!/bin/bashcd /hom...

2020-01-11 10:17:13 5533

原创 mac 下brew的源更换为阿里云

# 替换brew.git:cd "$(brew --repo)"git remote set-url origin https://mirrors.aliyun.com/homebrew/brew.git# 替换homebrew-core.git:cd "$(brew --repo)/Library/Taps/homebrew/homebrew-core"git remote set-...

2019-09-03 08:09:39 1076

原创 搜索引擎算法之关键词类目预测

在搜索算法中,关键词类目是非常重要的一个话题,是搜索排序中的一个重要模块。搜索排序可以可以简单的分成几个模块:文本相关性、质量分、转化率。文本相关性可以由粗到细分解为类目相关性、属性相关性、语义相关性几个部分。本文重点解析一下类目相关性。例如用户搜索“连衣裙”,最相关的类目是“女装-连衣裙”、“童装-连衣裙”。而其他类目中包含连衣裙就不是那么相关,例如帽子类目的商品“适合沙滩连衣裙的帽子”。所...

2019-04-29 13:48:29 2290

原创 各公司的机器学习平台的github

linkedin:https://github.com/linkedin/photon-ml/wiki/Photon-ML-Tutorial 我们用了里面的LR算法。奇虎:https://github.com/Qihoo360/XLearning阿里妈妈:https://github.com/alibaba/x-deeplearning...

2019-03-14 09:23:47 441

原创 搜索引擎算法之同义词、近义词、上位词挖掘

在搜索引擎中,我们会碰到大量的同义词需求。用户在描述同一个东西的时候,会有各种各样的描述。 在电商搜索环境中,同义词分成好几类: 1. 品牌同义词:nokia=诺基亚,Adidas=阿迪达斯 2. 产品同义词:投影仪≈投影机,电话≈cell phone;automobile 和car。 3.旧词和新词:自行车 -&gt; 脚踏车 4...

2019-03-14 09:19:58 5930

原创 bert-as-service 尝试

         肖涵博士,bert-as-service 作者。现为腾讯 AI Lab 高级科学家、德中人工智能协会主席。启动server:bert-serving-start -model_dir uncased_L-12_H-768_A-12 -num_worker=4/home/zhongling/tensorflow1.4/lib/python3.5/site-packages...

2019-01-26 21:57:21 5516 1

原创 搜索引擎算法之Query Similarity (query relevance、查询的相似性或相关性)

目录介绍: 一、计算相似性的方法很多,最简单是是根据字面的编辑距离来计算相似性。例如: 二、更近一步,很自然想到搜索点击的结果来计算两个Query的相似性。 三、当然我们也可以借助协同过滤的方法,把query和点击item作为一个评分矩阵,按照协同过滤的方法来计算相关性。 四、由于点击数据受到搜索结果的影响,由于排序质量的问题,点击的位置...

2019-01-06 13:54:48 4430

原创 搜索引擎算法之 Query Tagging

 《Using Search-Logs to Improve Query Tagging》,google论文https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38276.pdf根据搜索查询语料来标注词性标签。基于统计的方法来做。搜索:budget rent a car搜...

2019-01-05 14:35:34 734

原创 搜索引擎算法之 Query Analysis

    在搜索引擎的算法优化中,Query分析有相当多的论文,其中主题包括:Query的类目预测。例如搜索“运动鞋”,可能包括:男士运动鞋、女士运动鞋、儿童运动鞋等类目,预测Query所在的类目对提高搜索结果的相关性非常重要。如果能够识别用户或者意图是男性还是女性,搜索结果又可以去掉很多不相关的类目。 Query的相关性计算。用于下拉补全词推荐、相关词推荐。不过补全词和相关词推荐在产品上是不...

2019-01-05 14:05:56 1557

原创 开源报表工具 Metabase 使用技巧- 通过外表解决英文转中文的功能

 在管理界面找到具体的报表名称和字段:选择设置: 外表的定义:CREATE TABLE `dim_search_scenario_info` (`scenario` varchar(50) COLLATE utf8mb4_bin DEFAULT NULL,`chinese` varchar(100) COLLATE utf8mb4_bin NOT NULL,PRI...

2018-08-30 13:16:17 3243

原创 开发中常用linux命令

1.找出所有shell 里面,找到所有shellfind /opt/task/ | grep -v pyspark2 |  grep ".sh$" &gt; a.sh  2.找出含有cluster 字符串的文件过滤其中有submit 和 cluster 字符串的shell文件:import oswith open("a.sh","r") as f:    for ...

2018-07-09 15:27:05 162

原创 图像相似性搜索思路

为什么做图像相似性搜索?通过图像找相似性比较容易。应用场景:通过图片找相似作品。比如足迹可以使用。新发布作品,通过图片找最相似的作品。各种推荐场景,可以把图像相似性的特征用在计算相似作品上面。算法思路:用AutoEncoder,发现用卷积的方法无法降维。放弃。。。搜索是考虑用Resnet之类的算法,尝试发现用倒数n层的特征区分度不大。用基于2-channel network的图片相似度判别, 每次...

2018-06-26 22:48:56 1253

原创 开源报表工具 Metabase 使用技巧-日期筛选实例

       很多公司都有大量的数据,要把这些数据做出报表无疑需要大量的时间。虽然有EChart之类的图表工具,无奈开发成本还是太高。 用BDP、Tableau 之类的软件,需要花钱买账号不说,数据安全也不好保证。因此一个开源的数据报表工具就显得非常重要。目前我们开始使用MetaBase这样的工具。          Metabase为什么好用呢?我们看中了它的几大原因。          1、可...

2018-06-26 19:51:17 7273 3

原创 阅读GRU 用于推荐的代码

https://github.com/hidasib/GRU4Rec/blob/master/examples/rsc15/preprocess.pypython preprocess.pyFull train set Events: 31637239 Sessions: 7966257 Items: 37483Test set Events: 71222 Sessions: 15324 Item...

2018-04-17 09:03:11 1662

原创 scala 两个list 拼接 ++:

scala&gt; val x = List(1)x: List[Int] = List(1)scala&gt; val y = LinkedList(2)y: scala.collection.mutable.LinkedList[Int] = LinkedList(2)scala&gt; val z = x ++: yz: scala.collection.mutable.Lin...

2018-03-01 14:07:59 8467

原创 excel 常用技巧

LOOKUP 的注意知识点:1、LOOKUP要查询一个明确的值或者范围的时候(也就是知道在查找的数据列是肯定包含被查找的值),查询列必须按照升序排列。(在EXCEL帮助文档里也是这么说的)如果所查询值为明确的值,则返回值对应的结果行,如果没有明确的值,则向下取的于所查询值最近的值2、查找一个不确定的值,如查找一列数据的最后一个数值,在这种情况下,并不需呀升序排列。(下面有例子特别说明)Mac 的e...

2018-02-11 13:57:19 253

原创 ES增加3个雇员的文档

curl -XPUT 'localhost:9200/megacorp/employee/1' -d '{"first_name" : "John","last_name" : "Smith","age" : 25,"about" : "I love to go rock climbing","interests": [ "sports&q

2018-02-08 20:14:43 406

原创 HUE平台oozie 调度系统设置踩坑记录

通过oozie调用hive和shell脚本都没有问题。shell脚本需要先上传到hdfs 的某个目录下,只要账户对这个目录有读权限就行。Stdoutput Warning: /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports

2018-01-18 16:54:15 3377

原创 中文维基百科word2vec训练及其代码

参考文章:中英文维基百科语料上的Word2Vec实验数据来自:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2繁体转为简体: opencc -i zhwiki.txt -o zhwiki.txt.simle -c zht2zhs.ini先把文件拆分为多个文件:split  -l  3000

2018-01-05 13:22:30 642

原创 spark 安装standalone 的坑

spark 对应的scala 版本要注意通过spark-shell 来检查:spark 版本和scala的版本不一致,就没有办法运行了。  花了2个多小时发现的坑。命令如下:$ ./bin/spark-shelllog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.Muta

2017-12-26 23:43:27 466

原创 python3.5 如何在virtural env 下面使用libsvm

python的libsvm设置

2017-07-25 21:00:08 793

转载 Ubuntu 16.04 RTL8111/8168/8411 不能上网 经常断网解决办法 Author 时鹏亮 | 11/18/2016 = =这奇葩情况发生在从14.04升级到16.04之后,开始以

Ubuntu 16.04 RTL8111/8168/8411 不能上网 经常断网解决办法修改了其中wget的部分:替换wget 这一段:去这里下载 :https://github.com/mtorromeo/r8168Author 时鹏亮 | 11/18/2016= =这奇葩情况发生在从14.04升级到16.04之后,开始以为是服务器挂了,看实体机是正常

2017-07-21 07:05:00 5936

原创 wordPress 安装

使用阿里云镜像:https://market.aliyun.com/products/53616009/cmjj018048.html?spm=5176.730005.0.0.Xbpat7wordpress设置类目别名一定不要用中文。

2017-06-21 21:41:07 698

原创 阿里云数加Max Compute的Java Map Reduce程序读取文本资源及其命令行和IDE运行配置

最近有个业务是想从商品数据中解析出需要的关键词。关键词来自一个词库,词库文件包括产品类目词、菜品词等等。选择用阿里云Max Compute 的Map Reduce(MR)来实现。

2017-06-07 17:18:19 1116

原创 placeholder 和 计算

import tensorflow as tfimport numpy as np# 设计一个3维数组x = tf.placeholder('float', [None,2,2])# 加法器y = tf.add(x,x)#随机产生一个2*2 数组rand_array2=np.random.rand(2,2)# 编程3维rarray = [rand_array1]

2017-04-14 20:33:00 2102

原创 如何根据模型来画决策面?

_author__ = 'm.bashari'import numpy as npfrom sklearn import datasets, linear_modelimport matplotlib.pyplot as pltdef generate_data(): np.random.seed(0) X, y = datasets.make_moons(200, no

2017-04-14 05:49:10 2373 1

原创 安装openCC 需要先安装cmake

https://github.com/BYVoid/OpenCC安装openCC在centOS 操作系统,需要先安装cmake,然后再make。

2017-04-04 09:39:23 2782

张乐博士的最大熵手册

张乐博士的最大熵手册 张乐博士的最大熵手册 张乐博士的最大熵手册

2011-04-17

数字ip转ip v4的工具

数字ip转ip v4的excel工具,数字ip转ip v4的excel工具

2018-02-02

RTL8188C_8192C_USB_linux_v4.0.2_9000.20130911

无线网卡驱动 rtl 8188 网卡

2017-05-20

速卖通标题优化技巧

速卖通标题优化各种功能: 标题诊断 热词分析 宝贝找词 标题优化 海量直通车关键词

2015-11-19

poson的留言板

发表于 2020-01-02 最后回复 2020-04-01

为什么我的机器不能装window2000,谢谢

发表于 2002-03-25 最后回复 2012-11-23

我的世界需要音乐,

发表于 2002-04-06 最后回复 2012-11-23

关于虚拟机的问题

发表于 2002-09-30 最后回复 2012-11-23

ie的问题求助,达人请进

发表于 2002-10-04 最后回复 2012-11-23

【asp.net】一个控件存在两个dll文件中是怎么回事呢?

发表于 2008-06-06 最后回复 2011-11-10

/usr/bin/ld: abc.o: relocation R_X86_64_32 against `a local symbol' can not be used when making a shared object; recomp

发表于 2008-10-10 最后回复 2011-08-16

为什么我的pythonwin保存源代码得到的只有“=”号

发表于 2009-01-05 最后回复 2010-10-25

在python中怎么获得字符串的长度?

发表于 2008-10-28 最后回复 2009-06-18

为什么crontab 不能运行python脚本

发表于 2008-11-14 最后回复 2008-12-25

oracle数据库慢怎么解决?

发表于 2008-07-25 最后回复 2008-07-26

为什么我的windows服务总是不断重启?

发表于 2008-07-17 最后回复 2008-07-17

对oracle的排序非常迷惑

发表于 2008-06-24 最后回复 2008-06-24

请教lib的问题

发表于 2005-10-09 最后回复 2005-10-14

请问怎么动态添加一个字段?

发表于 2005-08-03 最后回复 2005-08-03

请教.bmp文件象素为24位时的压缩算法。

发表于 2004-10-21 最后回复 2004-10-21

请问怎么删除一个Form中的所有控件?

发表于 2004-04-19 最后回复 2004-04-20

请教为什么显示的cpu使用率总是0.99

发表于 2004-03-11 最后回复 2004-03-14

请教CoCreateInstance内部的一个调用细节?

发表于 2004-03-08 最后回复 2004-03-09

smtp问题。

发表于 2003-11-25 最后回复 2003-11-25

求关于斐波那契查找算法性能的定量分析

发表于 2003-11-14 最后回复 2003-11-20

怎样创建一个指定大小的文件(如100MB)

发表于 2003-06-14 最后回复 2003-06-14

delphi中排版快捷键是什么?

发表于 2003-04-30 最后回复 2003-04-30

怎样设置墙纸?

发表于 2003-04-04 最后回复 2003-04-04

怎么得到一个记录集的行数?

发表于 2003-01-18 最后回复 2003-01-19

怎样使JTable不可以编辑

发表于 2003-01-18 最后回复 2003-01-18

问一个进程的问题

发表于 2003-01-12 最后回复 2003-01-12

怎样指定JButton的位置,精确到坐标位置

发表于 2003-01-12 最后回复 2003-01-12

io重定向的问题

发表于 2002-10-23 最后回复 2002-10-23

怎样得到一个exe文件运行时所需的内存(up有分)

发表于 2002-10-18 最后回复 2002-10-21

CSocket的新手的问题

发表于 2002-09-10 最后回复 2002-09-10

一个关于拖放的问题

发表于 2002-08-27 最后回复 2002-08-30

请讲解一下这个allocator<T>

发表于 2002-08-17 最后回复 2002-08-17

连接远程服务器的疑惑?

发表于 2002-06-27 最后回复 2002-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除