TURING.DT-CSDN博客

原创共享优秀博文及书单

（文中的链接需要右键，在新的窗口打开，csdn不知道搞什么，直接点开提示"该网址内容存在未知风险"，网址链接根本没有安全问题）网上的优秀教程及书籍有很多，之前一直使用收藏夹方式收藏，后来发现越来越多，导致优秀的教程自己也找不到了，本着共享精神，以后将优秀的教程链接及书单名称全部整理到这里，便于自己查找，也共享给其他朋友，共用进步，书单只提供书的名字，建议大家购买正版图书，如果此文有内容侵犯到作...

2017-03-12 10:03:16 2350

原创 pyCharm快速安装tensorflow、keras环境

本地文件查看：C:\Users\levy\AppData\Roaming\pip\pip.ini。官方源 https://pypi.org/simple。tensorflow有点大需要等待一下，按照顺序执行。一、使用国内的源（下载速度起飞）

2025-03-11 16:42:15 892

原创 Pycharm调试Deepseek API

2、创建API key（注意：复制保存好API key，因为出于安全原因，你将无法通过 API keys 管理界面再次查看它）问题出在 httpx 更新到 0.28 版本以上，他们移除了已弃用的关键字 proxies。创建虚拟环境后，你需要激活它才能在该环境中安装包或运行代码。你可以通过搜索“cmd”或“Anaconda Prompt”来打开命令行界面。现在你可以在该环境中安装任何需要的包了。4、通过Anaconda Prompt安装openai包。5、测试（简单调用api）c）在虚拟环境中安装包。

2025-02-07 23:21:00 920

转载双塔模型部署方式

双塔模型在工业界的部署需要遵循以下步骤，从训练到上线到生产环境的推理，重点在于如何让模型高效、准确地完成用户和物品的匹配任务。以下将逐步从数据准备、模型训练、向量化离线部署、实时匹配服务、优化与监控五个方面详细说明，并附带详细的代码，易于理解和实现。

2025-01-21 18:54:44 93

原创模型部署：TF Serving 的使用

p 8500:8500 -p 8501:8501表示将本地的端口映射到容器的端口，其中8500表示通信方式使用gPRC，8501使用Rest API进行通信，二选一，这里选择8500；一个重要的特性是：支持热更新与模型版本自动管理，这意味着一旦部署成功，不需要再为线上服务担心，只需要关心线下的模型训练即可；其中，重点是最后一步模型保存，需要保存成pb格式，如果你这边是其他格式，需要将其转换成pb；服务器端的目的是基于上面的模型文件，提供模型服务，方便通过客户端进行调用，实现模型推理；

2025-01-20 16:35:38 1003

原创 VirtualBox新版本报错 Invalid installation directory解决方案

将需要安装VirtualBox的目录下创建个目录。将VirtualBox安装在D盘。VirtualBox7.1.4下载。使用cmd（使用超级管理员）

2025-01-10 10:07:33 2299

原创写产品需求文档(PRD)核心思路

产品需求文档（Product requirements document 简称PRD）是产品经理在工作中最重要的产出物，是承上启下的核心文档。因此，PRD文档是产品经理职业生涯中必须要掌握的技能。我会从以下几个方面讲解，到底怎么才能写好PRD文档。

2024-11-08 13:09:08 1507

原创如何选择正确的北极星数据指标

North Star Metric ” 北极星指标。又叫做 “ OMTM " ，唯一重要的指标。之所以叫北极星指标，是因为这个指标一旦确立，就像北极星一样，高高闪耀在天空中，指引着全公司上上下下，向着同一个方向迈进。

2024-10-28 17:14:10 1081

转载搜索优化方向

3）从整体体验端流程（用户点击搜索框–>用户在搜索场景完成深度转化）的每一个阶段，对应到底层的逻辑链路，去做相应的梳理和建设，整体的流程按照串联点去做；从用户点击搜索框-历史搜索词/热门搜索列表-联想词-搜索结果页/结果页的结构组成/展现形式等，进行体验端问题汇总，以优化核心价值为目标，去做汇总；1）整个转化流程中用户的转化漏斗（请求-下发-曝光-点击-转化-深度转化），去看用户在哪一块的流失率最高，进行归因分析。这部分主要是针对功能模块的优化，去合理提升用户在各模块的覆盖率以及用户在搜索场景的转化路径；

2024-09-29 14:48:15 1114

原创产品用户增长

增长黑客其实就是围绕着增长 = 新增 + 留存 + 挽回，这个公式展开的。有了这个公式以后，当你发现产品增长乏力时，就可以分析产品增长停滞具体是由哪个方面引起的，然后对症下药，制定高效的产品增长策略。另外，很多大公司都会按照这个公式把自己的增长团队划分为新增、留存和挽回三组，各个团队可以针对明确的目标，制定自己的增长策略，促进产品增长。如果你在小公司，增长团队没有这么大的规模，你也可以借鉴这种方式把你的增长工作分成新增、留存和挽回这三部分，明确你制定的每一项增长策略分别可以从哪个方面实现产品增长。

2024-09-11 09:27:38 914

原创如何寻找用户需求

用户需求，是大家每天最常说的词，也是误区最多的词。一个最大的问题就是，产品经理写了几十页的用户需求文档，挂了各种各样精彩绝妙的韦恩图、曲线图、UI 图，结果却发现这个产品解决的痛点实际上根本就不存在。用户需求一定要立足于用户，一定要验证这个痛点到底是不是真的存在。平衡车（Segway）就是一个例子。这种靠电力驱动、具有自我平衡能力的交通工具，刚出现的时候惊为天人，各种投资人、发明家都为这样的绝妙设计而感到震撼，但是这个被寄予厚望的发明却并没有顺利落地。平衡车需要经常充电，而且售价非常昂贵。

2024-09-09 15:24:20 791

原创 APP黄金流量：如何完成首页入口资源位最大价值

以上，不同 App 首页资源位的使用，与 App 的定位、用户特征等高度相关。但是同一类型物料的价值是可以分析的。希望通过这节课能让你对各 App 首页资源位使用背后的逻辑有一定认识。

2024-09-06 11:48:04 2043

原创信息流产品场景及数据指标体系

信息流现在是当前互联网平台信息分发最高效的方式，本课程主要分享了信息流数据指标体系，分信息消费者、生产者、平台方来介绍主要数据指标。希望能让你对信息流的基础数据指标有一定认识。欢迎在留言区提问，也欢迎大家关注我的微信公众号（数据民工来取经儿）进行学习。

2024-08-23 14:20:39 1234

原创意图识别和纠错问题

可想而知，错误的意图识别会带来多大的负面影响。基于词典，就是对用户query内容和词典内容进行比对，比较常见的方式是序列标注问题里用的最大逆向匹配，通过这种方式找到词典里的实体词，匹配触发了自然就有意图了，而在词典匹配的时候，不是使用链表之类的来构造匹配结构，而是使用搜索树的结构，这种匹配的复杂度最低，速度也快，两者结合，其速度甚至比很多模型要快得多（基本上1ms以内就能完成），fasttext速度非常快，但是textcnn之类的其实就已经达到ms级别以上，bert甚至在10ms级别。

2024-08-14 18:55:17 2553

原创浅谈搜索业务常见数据指标

搭建指标体系的方法论有很多，本期我们会结合GSM、OSM方法的理念来梳理指标，再结合搜索核心关注的分析维度，搭建出搜索指标体系。针对不同的使用对象，可以抽取设计出不同的数据产品以满足需求。

2024-08-13 09:10:49 1848

原创电商搜索停止词库（stopwords）

在中文网站里面其实也存在大量的stop word，我们称它为停止词。比如，我们前面这句话，“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高，几乎每个网页上都存在，所以搜索引擎开发人员都将这一类词语全部忽略掉。停止词，是由英文单词:stop word翻译过来的，原来在英语里面会遇到很多a，the，or等使用频率很多的字或词，如果搜索引擎要将这些词都索引的话，那么几乎每个网站都会被索引，也就是说工作量巨大。可以毫不夸张的说句，只要是个英文网站都会用到a或者是the。

2024-08-08 09:25:38 543

原创电商违禁词&禁用词

最佳、最娇嫩、最低、顶级、顶级、防敏、首选；活化肌肤、最感兴趣、最具有发展前景、最贴心最为完善、最佳最舒适、顶尖、第一、最大最新、最先进、独一无二、独有、最新、最严格、极至、最好的、最环保、最佳；促进血液循环、最近、最新鲜、最安全、最省力、最优质、第一线、最接近、最逼真、最满意、最简洁最明朗最低、最严谨、之首、独创、最重要、最佳、最高、天猫、首发、最自然、最好最舒适、最重要、最小值、最高、最实用、首家、防止宝宝皮肤过敏、最高、最科学、最前沿、最轻便、**之王、最具活力、最喜欢、最完美。

2024-08-08 09:19:26 4784

原创电商搜索同义词库（synonyms）

目前整理了一些搜索电商商品的同义词样例，以提供搜索功能参考使用。T-shirt,T恤,Tshirt,T。儿童,婴儿,幼儿,婴幼儿,初生儿。挂表,钟,大表,表,闹钟,钟表。牛仔短裤=>牛仔裤,牛仔短裤。橙色,橘色,桔色,桔,橘,橙。晾衣架,衣服架,衣架,晒衣架。拉杆箱=>箱,箱包,拉杆箱。商务装,正装,西装,西服。皮夹=>包,皮包,皮夹。皮箱=>箱,箱包,皮箱。条纹,横条,竖条,花纹。外衣,外套,外褂,褂子。男袜,男士袜,男士袜子。女袜,女士袜,女士袜子。洗脚盆,足疗机,足浴盆。骑士靴=>靴,骑士靴。

2024-08-07 17:28:04 677

原创推荐系统与搜索系统架构

这就是其中一个模型的打分逻辑，有多模型打分融合的精排层，会将多个模型的分数进行打分，每个模型的重要性不一样，因此分数都会有权重，将每个模型的分数进行权重计算后相乘在一起，就是这个item的排序分数，每个item按照分数进行从高到底排序，就会得到精排打分列表。推荐的本质是需要留住用户在APP中，让用户使用的时间变长，并且第二天也能留住用户，逐渐产生广告收益和其他收益，让用户消费更多，需要通过分析用户的历史行为以及当前的实时行为场景等，推荐系统自发生成查询条件快速给出推荐列表的行为，是一种无声的搜索。

2024-08-05 18:25:58 2282

原创搭建用户搜索指标体系

用户类指标：搜索人均类指标以及搜索的新增、活跃等指标都能反应搜索用户的使用情况，通过人均类指标能够反应搜索对于用户的渗透情况、新增活跃指标更是很直观的反馈用户对于搜索功能的体验，是否能满足用户获取信息的需求，而留存类指标则体现出搜索功能是否给用户感受到良好的使用体验，当搜索功能有优化升级时这些指标都能及时的反馈优化效果。流量类指标：搜索DAU、搜索时长、搜索次数、搜索PV、搜索UV等，这些是能够反应搜索流量的核心指标，也是最直观能够反应用户使用搜索功能的情况，适用于日常的大盘监控分析。

2024-08-01 14:58:59 1024

原创 3步阐述搜索框做了什么事情

搜索功能是几乎每个产品的通用标配功能，一个看似简单的搜索框背后，其实隐含了大量的设计思考和技术壁垒。本文将从三个部分阐述，为何搜索框并不简单。本文将从搜索场景的思考、基于步骤的搜索设计以及搜索数据的追踪3个部分，对产品内部搜索设计的主要思路和常见的搜索规则做个简单的分享。

2024-07-31 19:48:20 1022

原创搜索功能发现及定位问题

可以从搜索链路视角（「query 处理」->「意图理解」->「召回曝光点击」）来甄别是哪个环节出了问题；也可以从流量行为视角来看是哪部分用户搜索出了问题；也可以从用户其他行为辅助你识别用户到底要什么

2024-07-25 13:59:02 328

原创浅谈搜索指标&业务辅助应用

对于生鲜类电商，很多商品都不适合大量囤货，不然会造成商品的大量损耗。CTR和CVR并不是完全正相关的，很多SKU的CTR很高，但是CVR很低，比如一些标题夸张主图奇特的商品，用户可能会被商品的标题和主图等吸引产生点击，但是最终是否下单用户还是会根据自己的实际需求进行综合考虑的。但实际在业务开展的时候，负责搜索引擎的部门背的核心KPI就是搜索引擎的CTR、CVR和PGMV这三个指标，上述其他指标更多是作为辅助指标来进行综合评估，并不会列为部门的KPI，其他指标在业务上反映的价值并没有那么重要和直观。

2024-07-19 16:44:07 1418

原创浅谈电商搜索数据指标体系建设

发现式搜索是来APP前没有购买目标，在站内展示的内容驱动下比如推荐&活动等，发现商品从注意到兴趣，激发非计划式需求，从数据上定义就是进站后30s后才去搜索。在此抛砖引玉，希望对感兴趣的同学有所启发。如果某一个场域用户访问率&销售占比高，则代表这个场域流量&创造的价值越大，有上表可知，搜索是其中最重要的场域，将精力投入到“搜索”的ROI是较高的。运营+产品角色，影响搜索GMV的关键要素是：用户进入搜索框之后，一系列的功能引导&利益点传递等，核心作用是更好的用户流程体验（不要有卡点）

2024-07-17 18:31:29 690

原创浅谈购物APP搜索功能强大奖-竞品分析

a、拼多多搜索页包含最近搜索、搜索发现，最近搜索就是近期搜索哪些内容，方便下一次再次搜索，最近搜索可以清除，搜索发现类似使用了推荐功能，帮用户推荐一些可能感兴趣的内容，搜索发现可以隐藏，保护隐私，除了”商品”搜索，上边可以修改为”店铺”搜索；4、搜索后的商品列表，淘宝没有活动筛选器缺少活动的筛选定位，京东的商品图片设计的复杂，想体现的内容比较多，用户看着不够清晰，多少好评、多少人付款、出售多少还是实用的，用户会关注参考，商品跟着大众购买基本上是正确的；

2024-07-14 19:33:00 1058

原创浅谈三车平台车型对比功能实用奖-竞品分析

目录：一、项目背景二、竞品概述三、竞品目标功能对比3.1、车型对比入口位置3.2、车型对比首页3.3、添加/删除车型功能3.4、选择车型后功能对比3.5、配置对比的功能四、总结一、项目背景在汽车购买过程中，消费者经常面临着选择困难，尤其是在比较不同车型时。针对这一问题，消费者希望能够方便地进行车型对比，以便更好地了解各种选项之间的差异，用户可以将多个感兴趣的车型添加到对比列表中，直观地查看它们之间的差异和优劣势。这种功能不仅可以帮助消费者节省时间和精力，还可以帮助他们更全面地了解各种车型的特点，从而做出更加

2024-07-11 15:29:37 1359

原创 xlearn:快速落地FM/FFM机器学习算法

在这个样例中，将使用xLearn来解决一个经典的机器学习问题：在线广告预估。样例数据在： https://github.com/aksnzhy/xlearn/demo/classification/mushroom/.样例数据在： https://github.com/aksnzhy/xlearn/demo/classification/titanic/.样例数据在： https://github.com/aksnzhy/xlearn/demo/regression/house_price/.

2024-05-07 18:31:47 685

原创 doccano标注工具|为机器学习建模做数据标注

转到“Dataset”页面，然后单击“操作”菜单中的“Export dataset”按钮。在标签编辑器页面中，您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。创建项目后，点击Dataset按钮，点击Import dataset导入数据。需要注意，市面上的机器学习课程一般都默认数据已标注，在此基础上讲机器学习。然后，选择“Add”按钮以显示表单。根据需要选择项目的功能需求，例如允许单标签，把数据打乱随机显示，用户之间共享标注。下面我们以外卖评论数据为例，对评论进行判断，标注为正、负面情感。

2024-04-03 13:40:45 3237

原创 Linux Centos7安装Docker容器

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。可以看到刚才在执行docker run hello-world的时候，已经将hello-world镜像拉去到本地镜像中了。docker社区、ee企业版 ce为社区版官方推荐使用ce版，默认安装最新的docker。/var/lib/docker 为docker默认的工作路径！

2024-03-28 11:49:44 1177

原创产品经理与产品运营的区别和联系

因此在我们确定一个产品价值的时候需要跟公司本来的战略结合在一起考虑，这样才能保证产品价值的完整性。产品经理与产品运营都需要深入了解用户，产品经理需要通过了解来确定产品价值，提升用户体验；为了让产品价值更高效的体现，产品经理需要对产品进行功能或者信息架构，需要研究用户体验，需要懂得一些交互技巧。通过上文的内容，可以看产品经理的工作重心赋予产品价值，而产品运营的工作重心是如何让产品发挥出价值。产品运营的主要目的是：是让产品能有效的发挥出它应有的价值。创造有价值的产品的第一步就是：寻找和确定产品的价值。

2024-01-16 10:44:54 1725

原创浅谈标签及应用场景

标签的应用场景是由互联网领域逐步推广到其他领域，打标签的对象也由用户、产品等扩展到渠道、营销活动、服务等，不同领域有不同的应用，目前最典型的应用是用户画像、产品画像，画像是按应用场景将多个标签组合分类而成，比如：筛选出年龄在20-30岁在广州的女性，就使用多个标签的组合，从而精准找到符合应用的用户。标签由标签名称和标签值组成，打在目标对象上。综上，标签画像的应用越来越被企业重视，其应用场景也覆盖了各行业、各领域，期望该文能起到抛砖引玉的作用，挖掘我们在各个岗位上的标签应用赋能业务。

2024-01-11 15:51:43 1220

原创标签 VS 数据指标，概念与区别

指标可以从标签中转化，比如高净值客户的迁移率（从长尾客户转化到高净值客户的比率），其中高净值客户和长尾客户都是标签，但在标签的基础上增加一个迁徙率，就由标签转化为了指标。同样标签也可以从指标转化得来，比如说银行中常用的数据标签：私行客户（AUM>=500万），其中 AUM 就是数据指标，不同银行的标签设定可能是不同的。不懂数据的产品不是好运营，为了便捷地了解产品现状及业务效果，指标体系中会有很多拆解的细分指标，这些数据的变动反映的是用户对于运营情况的最新反馈，为运营的业务决策提供了数据支持。

2023-12-22 19:28:47 1577

原创基于LangChain+ChatGLM2-6B+embedding构建行业知识库

目的：最近在探索大模型本地化部署+知识库实现行业解决方案，安装过程记录，分享给需要的同学，安装前确定好各组件的版本非常重要，避免重复安装走老路。方案一：使用开源LLM本地部署和微调优点：数据最安全，因为不管是模型还是训练数据都在本地缺点：要调教出一个足够出色的模型，需要耗费较多的人力物力（当然相比于预训练已经好太多了）具体实施：（LLAMA、ChatGLM2）+（Lora、P-Tuningv2、promote-tunning等）方案二：基于LLM+向量数据库。

2023-11-13 18:49:40 2703

转载一文读懂什么是CTO、技术VP、技术总监、首席架构师

究竟什么是CTO，一个公司真的需要CTO么？哪些公司的职位对于技术管理者来讲真的是CTO的职位？同样是技术最高负责人，为什么有人叫CTO、有人叫技术总监、技术VP，有人叫首席架构师？他们之间的差别是什么？怎样才能成为一个合格的CTO？各职位之间的差异，从以下技术管理者需要的五个核心能力来区别开：领导力、文化构造能力、人员管理能力、体系搭建能力、技术实力。同样是最高技术负责人，在这五点能力上的强弱决定了最终自己在市场上“挣”出来的职位是什么。

2023-11-03 11:30:43 8754

原创大数据开源框架技术汇总

引言主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展的做个参考。目录Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推

2023-10-18 14:06:28 1119

转载大模型评测总结与思考

想要全面且准确的测出一个大模型的能力且让所有人认可、达成共识，这件事本身具有非常大的难度，如今大模型的发展不同以往，传统的NLP榜单，不论是测评的能力项还是具体测评case都难以满足，为此必定要构建新的测评集，这个难度正如前面所说很大，还有一条路就是不构建测试集而是公测，让所有人来随机测，各种提问，但是这种方式对于开发者来说迭代周期长，且各个模型之间也难以量化对比。每一个测评集都不一样，进而导致了结论的不一样，也无法达成共识，目前唯一的共识可能就是chatgpt和gpt4比较强，其他的各说其词。

2023-08-16 15:17:19 4206

原创友盟+、GrowingIO和神策数据对比

属于大数据的基础设施了，可以做数据驱动技术，千人千面的优化。GrowingIO，这个非常适合项目早期，团队内没人懂这个东西，看完增长黑客就想上手。这个真的是对比过的，我们小作坊的员工是能学会GrowingIO的，可以数据驱动运营。growingio也提供清单级数据的导出服务，不过另外收费，开通之后可以提供过去15天的清单级数据。所以说，看你接给谁用，如果是做开发，想要做大数据驱动，神策更合适。使用要求：操作上，涉及数据集、表的关联、看板等多个需要用户操作的环节，对应数据处理过程。适合给老板看个总和。

2023-08-03 15:32:43 2589

Spark大数据分析核心概念技术及实践OCR 中文

Python深度学习（Deep Learning With Python中文版）

空空如也