- 博客(263)
- 资源 (5)
- 收藏
- 关注
原创 基于 PAI 搭建企业级个性化推荐系统 最佳实践
本方案结合阿里云 PAI 团队预置的基础版算法方案为例,演示如何以阿里云提供的数据、AI 类产品为基础,离线部分采用Maxcompute&Dataworks&PAI的大数据&AI体系,在线服务采用推荐引擎 PAI-REC、A/B 测试系统 PAI-A/B、在线模型服务 PAI-EAS、在线数据服务 Hologres,并通过 PAI-REC 运维与实验操作平台,利用阿里云云速搭 CADT,快速从 0 到 1 搭建一套高效、精准、易用、可扩展的智能推荐系统。⚫ 简单易用:SQL语言,在线开发,全面支持UDX。
2023-04-26 11:02:47 542
原创 pandas read_csv 读取数据中包含双引号
如果数据中的某个字段有引号,引号里面有逗号(逗号也是字段分隔符),如:1,"a,b,c"需要用下面的方法读取:import pandas as pddf=pd.read_csv("complext.csv",skipinitialspace=True,escapechar='\\',quotechar='"')df.to_csv("new.csv",sep="\x01")...
2020-08-08 08:01:57 4754
原创 读取txt中的字段key,然后编号再输出
import pandas as pdsep="|"def read_key(dict_key, arr_fileld, idx=[]): if len(idx) == 0: return for index in idx: keys = arr_fileld[index].split(",") for key in keys: if key not in dict_key: di.
2020-06-21 14:52:50 388
原创 python pip 设置阿里云的源,更新速度超级快
根目录上设置一个文件myhome$ cat .pip/pip.conf[global]trusted-host = mirrors.aliyun.comindex-url = https://mirrors.aliyun.com/pypi/simple
2020-06-15 09:39:37 954
原创 阿里云endpoint
oss的endpoint:https://help.aliyun.com/document_detail/31837.html?spm=5176.11065259.1996646101.searchclickresult.3c7e7a0d1SQo0Q#title-qvx-r3a-xr4
2020-06-13 12:07:17 2178
原创 tensorflow 的 hashtable 和index table 读取,求均值向量,缺失值处理
import tensorflow as tfprint(tf.__version__)list_arr = [9, 8, 6, 5]value_arr = [0, 1, 2, 3]tf_look_up = tf.constant(list_arr, dtype=tf.int64)tf_value_arr = tf.constant(value_arr, dtype=tf.int64)table = tf.contrib.lookup.HashTable(tf.contrib.lookup.
2020-06-07 17:15:45 1485
原创 tensorflow 通过TextLineDataset dataset.map 读取数据
这样读取数据比较麻烦,因为map是一行行读取,需要自己把数据整理成列的方式。处理起来还是比较麻烦,用decode_csv可以直接把数据处理成列的方式,简单很多。import tensorflow as tffrom tensorflow.contrib.lookup import HashTablefrom tensorflow.contrib.lookup import TextFileIdTableInitializerfrom tensorflow.contrib.lookup im.
2020-06-07 14:50:36 1409
原创 递归遍历子目录改后缀名(批量文本改名rename)
#!/bin/sholdsuffix="txt"newsuffix="sql"dir=$(eval pwd)function getdir(){ for element in `ls $1` do dir_or_file=$1"/"$element if [ -d $dir_or_file ] then getdir $dir_or_file else suf.
2020-06-06 18:57:33 609
原创 样本查询embedding向量
import tensorflow as tf#生成10*5的张量p=tf.Variable(tf.random_normal([10,5]))# 模拟两个样本中的2个稀疏字段的embedding,有4个元素1,3,2,4b = tf.nn.embedding_lookup(p, [[1, 3],[2,4]])# b 的维度是2 * 2 * 5 ,batch=2 ,field s...
2020-05-03 10:36:26 524
原创 深度学习 tensorflow 三维矩阵乘法(batch 迭代必须搞懂的矩阵乘法,维度增加)
import tensorflow as tf# 2 * 2 * 2 的embedding 矩阵 , 一个batch,每个样本有f个字段,每个字段有k维# 那么矩阵的大小就是batch * f * kembedding_index = tf.constant([[[0.1,0.2], [0.3,0.2]], ...
2020-05-03 09:32:40 4031
原创 pandas 对一列做变换,手工版的labelEncoder 和 labelEncoder
import pandas as pddf = pd.DataFrame({"key": ["aa", "bb", "cc"]})dict = {"aa": 1, "bb": 3, "cc": 2}df_map = df["key"].map(dict)print("raw:\n", df.head())print("mapped:\n", df_map)raw: ...
2020-05-03 08:46:14 1718
原创 阿里云提交spark 任务找不到 project,是因为endpoint不对
阿里云提交spark 任务找不到 project,发现是因为spark -odps 的endpoint 不正确,从阿里云project 的配置(https://setting-cn-beijing.data.aliyun.com/#/dataSource)中找到endpoint,然后修改endpoint 之后就正确了。 ./bin/spark-submit --jars cupid/o...
2020-04-29 20:08:47 636
原创 keras的自定义 layer和Model
本文对https://www.cnblogs.com/zdm-code/p/12245906.html 里面的一些细节做了修改,model里面增加了一层softmax。import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layers,Sequential,optimi...
2020-04-19 12:24:37 1457
原创 复旦中文文本分类语料库 结构化解析版本
搜狗新闻文本分类预测没有整理为好用的格式,花了点时间修改为\u0001 分割的数据create table sougou_text( id bigint, cate string, wenxian string, origin_from string, origin_city string, origin_num string,...
2020-04-06 15:11:30 1483
原创 如何在linux命令行(终端)执行ipynb 文件。可以不依赖jupyter。
安装 runipypip install runipy终端执行ipynbrunipy <YourNotebookName>.ipynb在终端命令行执行shell脚本,(也可以在crontab 中执行):(base) [recommend@app-0-5-B-006 script]$ cat run1.sh#!/bin/bashcd /hom...
2020-01-11 10:17:13 22882 4
原创 mac 下brew的源更换为阿里云
# 替换brew.git:cd "$(brew --repo)"git remote set-url origin https://mirrors.aliyun.com/homebrew/brew.git# 替换homebrew-core.git:cd "$(brew --repo)/Library/Taps/homebrew/homebrew-core"git remote set-...
2019-09-03 08:09:39 1993
原创 搜索引擎算法之关键词类目预测
在搜索算法中,关键词类目是非常重要的一个话题,是搜索排序中的一个重要模块。搜索排序可以可以简单的分成几个模块:文本相关性、质量分、转化率。文本相关性可以由粗到细分解为类目相关性、属性相关性、语义相关性几个部分。本文重点解析一下类目相关性。例如用户搜索“连衣裙”,最相关的类目是“女装-连衣裙”、“童装-连衣裙”。而其他类目中包含连衣裙就不是那么相关,例如帽子类目的商品“适合沙滩连衣裙的帽子”。所...
2019-04-29 13:48:29 3849
原创 各公司的机器学习平台的github
linkedin:https://github.com/linkedin/photon-ml/wiki/Photon-ML-Tutorial 我们用了里面的LR算法。奇虎:https://github.com/Qihoo360/XLearning阿里妈妈:https://github.com/alibaba/x-deeplearning...
2019-03-14 09:23:47 610
原创 搜索引擎算法之同义词、近义词、上位词挖掘
在搜索引擎中,我们会碰到大量的同义词需求。用户在描述同一个东西的时候,会有各种各样的描述。 在电商搜索环境中,同义词分成好几类: 1. 品牌同义词:nokia=诺基亚,Adidas=阿迪达斯 2. 产品同义词:投影仪≈投影机,电话≈cell phone;automobile 和car。 3.旧词和新词:自行车 -> 脚踏车 4...
2019-03-14 09:19:58 11350
原创 bert-as-service 尝试
肖涵博士,bert-as-service 作者。现为腾讯 AI Lab 高级科学家、德中人工智能协会主席。启动server:bert-serving-start -model_dir uncased_L-12_H-768_A-12 -num_worker=4/home/zhongling/tensorflow1.4/lib/python3.5/site-packages...
2019-01-26 21:57:21 6224 1
原创 搜索引擎算法之Query Similarity (query relevance、查询的相似性或相关性)
目录介绍: 一、计算相似性的方法很多,最简单是是根据字面的编辑距离来计算相似性。例如: 二、更近一步,很自然想到搜索点击的结果来计算两个Query的相似性。 三、当然我们也可以借助协同过滤的方法,把query和点击item作为一个评分矩阵,按照协同过滤的方法来计算相关性。 四、由于点击数据受到搜索结果的影响,由于排序质量的问题,点击的位置...
2019-01-06 13:54:48 7286 2
原创 搜索引擎算法之 Query Tagging
《Using Search-Logs to Improve Query Tagging》,google论文https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38276.pdf根据搜索查询语料来标注词性标签。基于统计的方法来做。搜索:budget rent a car搜...
2019-01-05 14:35:34 1088
原创 搜索引擎算法之 Query Analysis
在搜索引擎的算法优化中,Query分析有相当多的论文,其中主题包括:Query的类目预测。例如搜索“运动鞋”,可能包括:男士运动鞋、女士运动鞋、儿童运动鞋等类目,预测Query所在的类目对提高搜索结果的相关性非常重要。如果能够识别用户或者意图是男性还是女性,搜索结果又可以去掉很多不相关的类目。 Query的相关性计算。用于下拉补全词推荐、相关词推荐。不过补全词和相关词推荐在产品上是不...
2019-01-05 14:05:56 2173
原创 开源报表工具 Metabase 使用技巧- 通过外表解决英文转中文的功能
在管理界面找到具体的报表名称和字段:选择设置: 外表的定义:CREATE TABLE `dim_search_scenario_info` (`scenario` varchar(50) COLLATE utf8mb4_bin DEFAULT NULL,`chinese` varchar(100) COLLATE utf8mb4_bin NOT NULL,PRI...
2018-08-30 13:16:17 4299
原创 开发中常用linux命令
1.找出所有shell 里面,找到所有shellfind /opt/task/ | grep -v pyspark2 | grep ".sh$" > a.sh 2.找出含有cluster 字符串的文件过滤其中有submit 和 cluster 字符串的shell文件:import oswith open("a.sh","r") as f: for ...
2018-07-09 15:27:05 264
原创 图像相似性搜索思路
为什么做图像相似性搜索?通过图像找相似性比较容易。应用场景:通过图片找相似作品。比如足迹可以使用。新发布作品,通过图片找最相似的作品。各种推荐场景,可以把图像相似性的特征用在计算相似作品上面。算法思路:用AutoEncoder,发现用卷积的方法无法降维。放弃。。。搜索是考虑用Resnet之类的算法,尝试发现用倒数n层的特征区分度不大。用基于2-channel network的图片相似度判别, 每次...
2018-06-26 22:48:56 1642
原创 开源报表工具 Metabase 使用技巧-日期筛选实例
很多公司都有大量的数据,要把这些数据做出报表无疑需要大量的时间。虽然有EChart之类的图表工具,无奈开发成本还是太高。 用BDP、Tableau 之类的软件,需要花钱买账号不说,数据安全也不好保证。因此一个开源的数据报表工具就显得非常重要。目前我们开始使用MetaBase这样的工具。 Metabase为什么好用呢?我们看中了它的几大原因。 1、可...
2018-06-26 19:51:17 13065 7
原创 阅读GRU 用于推荐的代码
https://github.com/hidasib/GRU4Rec/blob/master/examples/rsc15/preprocess.pypython preprocess.pyFull train set Events: 31637239 Sessions: 7966257 Items: 37483Test set Events: 71222 Sessions: 15324 Item...
2018-04-17 09:03:11 2231
原创 scala 两个list 拼接 ++:
scala> val x = List(1)x: List[Int] = List(1)scala> val y = LinkedList(2)y: scala.collection.mutable.LinkedList[Int] = LinkedList(2)scala> val z = x ++: yz: scala.collection.mutable.Lin...
2018-03-01 14:07:59 11497
原创 excel 常用技巧
LOOKUP 的注意知识点:1、LOOKUP要查询一个明确的值或者范围的时候(也就是知道在查找的数据列是肯定包含被查找的值),查询列必须按照升序排列。(在EXCEL帮助文档里也是这么说的)如果所查询值为明确的值,则返回值对应的结果行,如果没有明确的值,则向下取的于所查询值最近的值2、查找一个不确定的值,如查找一列数据的最后一个数值,在这种情况下,并不需呀升序排列。(下面有例子特别说明)Mac 的e...
2018-02-11 13:57:19 379
原创 ES增加3个雇员的文档
curl -XPUT 'localhost:9200/megacorp/employee/1' -d '{"first_name" : "John","last_name" : "Smith","age" : 25,"about" : "I love to go rock climbing","interests": [ "sports&q
2018-02-08 20:14:43 530
原创 HUE平台oozie 调度系统设置踩坑记录
通过oozie调用hive和shell脚本都没有问题。shell脚本需要先上传到hdfs 的某个目录下,只要账户对这个目录有读权限就行。Stdoutput Warning: /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports
2018-01-18 16:54:15 4011
原创 中文维基百科word2vec训练及其代码
参考文章:中英文维基百科语料上的Word2Vec实验数据来自:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2繁体转为简体: opencc -i zhwiki.txt -o zhwiki.txt.simle -c zht2zhs.ini先把文件拆分为多个文件:split -l 3000
2018-01-05 13:22:30 845
原创 spark 安装standalone 的坑
spark 对应的scala 版本要注意通过spark-shell 来检查:spark 版本和scala的版本不一致,就没有办法运行了。 花了2个多小时发现的坑。命令如下:$ ./bin/spark-shelllog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.Muta
2017-12-26 23:43:27 623
转载 Ubuntu 16.04 RTL8111/8168/8411 不能上网 经常断网解决办法 Author 时鹏亮 | 11/18/2016 = =这奇葩情况发生在从14.04升级到16.04之后,开始以
Ubuntu 16.04 RTL8111/8168/8411 不能上网 经常断网解决办法修改了其中wget的部分:替换wget 这一段:去这里下载 :https://github.com/mtorromeo/r8168Author 时鹏亮 | 11/18/2016= =这奇葩情况发生在从14.04升级到16.04之后,开始以为是服务器挂了,看实体机是正常
2017-07-21 07:05:00 7707
原创 wordPress 安装
使用阿里云镜像:https://market.aliyun.com/products/53616009/cmjj018048.html?spm=5176.730005.0.0.Xbpat7wordpress设置类目别名一定不要用中文。
2017-06-21 21:41:07 759
原创 阿里云数加Max Compute的Java Map Reduce程序读取文本资源及其命令行和IDE运行配置
最近有个业务是想从商品数据中解析出需要的关键词。关键词来自一个词库,词库文件包括产品类目词、菜品词等等。选择用阿里云Max Compute 的Map Reduce(MR)来实现。
2017-06-07 17:18:19 1323
原创 placeholder 和 计算
import tensorflow as tfimport numpy as np# 设计一个3维数组x = tf.placeholder('float', [None,2,2])# 加法器y = tf.add(x,x)#随机产生一个2*2 数组rand_array2=np.random.rand(2,2)# 编程3维rarray = [rand_array1]
2017-04-14 20:33:00 2337
logview里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容的json格式转换
2023-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人