- 博客(564)
- 资源 (3)
- 收藏
- 关注

原创 共享优秀博文及书单
(文中的链接需要右键,在新的窗口打开,csdn不知道搞什么,直接点开提示"该网址内容存在未知风险",网址链接根本没有安全问题)网上的优秀教程及书籍有很多,之前一直使用收藏夹方式收藏,后来发现越来越多,导致优秀的教程自己也找不到了,本着共享精神,以后将优秀的教程链接及书单名称全部整理到这里,便于自己查找,也共享给其他朋友,共用进步,书单只提供书的名字,建议大家购买正版图书,如果此文有内容侵犯到作...
2017-03-12 10:03:16
1421
转载 大模型评测总结与思考
想要全面且准确的测出一个大模型的能力且让所有人认可、达成共识,这件事本身具有非常大的难度,如今大模型的发展不同以往,传统的NLP榜单,不论是测评的能力项还是具体测评case都难以满足,为此必定要构建新的测评集,这个难度正如前面所说很大,还有一条路就是不构建测试集而是公测,让所有人来随机测,各种提问,但是这种方式对于开发者来说迭代周期长,且各个模型之间也难以量化对比。每一个测评集都不一样,进而导致了结论的不一样,也无法达成共识,目前唯一的共识可能就是chatgpt和gpt4比较强,其他的各说其词。
2023-08-16 15:17:19
177
原创 友盟+、GrowingIO和神策数据 对比
属于大数据的基础设施了,可以做数据驱动技术,千人千面的优化。GrowingIO,这个非常适合项目早期,团队内没人懂这个东西,看完增长黑客就想上手。这个真的是对比过的,我们小作坊的员工是能学会GrowingIO的,可以数据驱动运营。growingio也提供清单级数据的导出服务,不过另外收费,开通之后可以提供过去15天的清单级数据。所以说,看你接给谁用,如果是做开发,想要做大数据驱动,神策更合适。使用要求:操作上,涉及数据集、表的关联、看板等多个需要用户操作的环节,对应数据处理过程。适合给老板看个总和。
2023-08-03 15:32:43
392
原创 Orange:一个基于 Python 的数据挖掘可视化平台
对于高级用户,可以通过开发自定义的组件(Widget)实现扩展的功能,或者在 Python 中利用 Orange 代码库编写数据挖掘脚本程序。为了方便初学者,Orange 提供了许多实用的工作流示例。打开 Orange 主界面,左侧显示了默认安装时提供的许多机器学习、预处理以及可视化的算法,这些功能被划分为 5 个组件集(数据、可视化、模型、评估以及无监督算法)。欢迎界面提供了新建、打开工作流(workflow)的快捷方式以及各种教程、示例和使用文档,关闭该界面就进入了 Orange 主界面。
2023-07-19 17:21:42
1378
原创 Prompt 技巧指南-让 ChatGPT 回答更准确
随着 ChatGPT 等大型语言模型 (LLM)的兴起,人们慢慢发现,怎么样向 LLM 提问、以什么技巧提问,是获得更加准确的回答的关键,也由此产生了提示工程这个全新的领域。提示工程(prompt engineering)是一门相对较新的领域,用于开发和优化提示以有效地将语言模型 (LM) 用于各种应用程序和研究主题。即时的工程技能有助于更好地理解LLM的功能和局限性。研究人员使用提示工程来提高 LLM 在广泛的常见和复杂任务(例如问题回答和算术推理)上的能力。
2023-07-19 10:52:35
848
原创 Ubuntu18.04本地部署Stable-Diffusion-webui绘画
打开v2-1_768-ema-pruned.ckpt · stabilityai/stable-diffusion-2-1 at main(https://huggingface.co/stabilityai/stable-diffusion-2-1/blob/main/v2-1_768-ema-pruned.ckpt),下载训练模型(大小4.9G)。在左上角的文本框prompt输入提示词,点击Generate,等待数秒钟(我的电脑大概等待15s左右),就会生成一张图。
2023-06-30 15:58:09
1364
5
原创 Pytorch和CUDA版本对应关系
官方地址:https://pytorch.org/get-started/previous-versions/注意低版本的Pytorch是否向上支持更高版本的CUDA。使用nvidia-smi命令显示的cuda版本信息。高版本的Pytorch一般能兼容低版本CUDA。
2023-06-30 14:10:55
2736
原创 产品运营如何与研发建立良好的合作
他们对业务也有自己的理解和想法,有时甚至能从别的角度给出更好的解决方案,前提是要让他们充分了解这个需求的来龙去脉,这个需求的背景,不仅仅是知道我们要做什么事,更重要的是我们为什么要做这个事:现在的这个产品需求是我运营经过调研分析确定的,我的解释是否能让你足够清楚明白了?如果是紧急的需求,或者重大的bug出现(比如用户无法登录了),这种可以随时找研发处理,但是尽量不要零敲碎打地报需求,尤其是不要用即时沟通的方式,比如qq,电话给研发报需求,容易遗漏,不好统计和反馈,而且也给研发造成打扰。
2023-06-01 14:53:50
504
原创 NVDIA GPU参数列表: 3090,4090, A40, A30,V100, A100, A800性能参数
而据英伟达的说法,新的 A800 可以替代 A100,两者都是 GPU(图形处理单元)处理器。芯片经销商 OMNISKY 容天官网介绍的英伟达 A800 GPU 信息显示,新的芯片数据传输速率为每秒 400GB,低于 A100 的每秒 600GB,代表了数据中心的性能明显下降。NVIDIA A100 GPU采用全新Ampere安培架构的超大核心GA100,7nm工艺,542亿晶体管,826平方毫米面积,6912个核心,搭载5120-bit 40/80GB HBM2显存,带宽近1.6TB/s,功耗400W。
2023-05-25 11:21:54
8794
转载 不错的ChatGPT Prompts/调教指南
首先ChatGPT它能干什么?类别描述学术论文它可以写各种类型的学术论文,包括科技论文、文学论文、社科论文等。它可以帮助你进行研究、分析、组织思路并编写出符合学术标准的论文。创意写作它可以写小说、故事、剧本、诗歌等创意性的文学作品,能够在描述情节和角色方面提供帮助。内容创作它可以写SEO文章、博客文章、社交媒体帖子、产品描述等各种类型的内容创作。它能够为你提供有趣、独特、易读的内容,帮助你吸引读者和提升品牌知名度。商业写作它可以帮助你编写商业计划书、市场调研报告、营销策略、商业简报、销售信件等。它可以用清晰
2023-03-21 14:51:17
13341
原创 电商搜索入门
但是对短文本的提取,特别是字符小于10的文本提取关键词,行业上也没有比较好的解决办法,从目前的测试数据来看,TF-IDF算法比较好一些。商品经过分词搜索,再经过权重模型计算排序后,就会展示在前端给客户查看,但是系统查询的结果不一定就百分百是用户想要的,所以用户可以自己根据一定的规则再次进行筛选新排序,最终找到自己的想要搜索结果。当用户输入查询关键词时,也有可能输入了和关键词意思相近的词语,比如用户本来想要输入"三体",但实际却输入成"3体",这个时候系统就会将"3体"转换为"三体",再进行下一步处理。
2023-02-28 17:07:45
1717
原创 机器学习模型监控的 9 个技巧
如果您使用不同类型的特征(例如:词嵌入、地理位置坐标),您可能需要将它们解码(例如:分别解码为字符串和城市名称),以便您可以更轻松地分析报表和在绘图中的展示这些特征。这样做的原因是,许多数据问题对样例的某些子集具有关键影响,但它们在整个数据集的影响可能会“消失”,因为当您查看整个数据集的聚合值时,它们的绝对影响不足以感受到。您创建了一些实时警报(电子邮件、移动推送通知等),以在模型以意想不到的方式表现时提醒您,例如奇怪的特征值、缺失的特征、分数太高/太低,等等。监控使用模型做出的决策。
2023-02-22 15:53:43
539
转载 AUC的是如何计算的
metrics.roc_curve默认drop_intermediate为True,然后讲解sklearn包计算AUC的详细流程,并用代码自行实现AUC的计算。文章先介绍如何使用sklearn包计算AUC,这是实际中常用的方法。本文主要讲解AUC是如何计算的,通过本文了解AUC的具体计算过程。算出的fpr和tpr会删掉线性过渡点(即上面图中标黄的点)!从结果可见,自行计算结果与sklearn包运行结果一致。调用sklearn包计算AUC的代码。01.调用sklearn计算AUC。
2023-01-04 11:05:52
501
原创 使用sklearn进行在线实时预测(构建可用模型)
前面说到的运行方式是在离线环境中运行,在真实世界中,我们很多时候需要在线实时预测,一种解决方案是将模型服务化,在我们这个场景就是,我告诉你一个鸢尾花的 sepal_length, sepal_width, petal_length, petal_width 之后,你能够快速告诉我这个鸢尾花的类型,借助 flask 等 web 框架,开发一个 web service,实现实时预测。上面的模型对鸢尾花数据进行训练生成一个模型,之后该模型对测试数据进行预测,预测结果为每条数据属于哪种类别。
2022-11-18 13:17:20
1361
转载 数字化转型,需要什么样人才体系?
术业有专攻,尤其是传统行业的业务人员对数据的认知处于比较浅的层次,想要在转型过程中,数据团队不是闭门造车,而是深刻的理解了业务流程和痛点,就需要具备深厚的数据功底的“外交官”的角色,去不断深入业务过程,可以告诉业务数据能够带来哪些改变,现有哪些数据,还需要做哪些工作。既然数字化转型的终极目的是降本增效,以终为始,那就要先看目前的经营流程中,主要的“本”花在了哪里,这时涉及两个层面,一是要能够梳理清楚现有的核心业务流程,二是有没有完善的数据,可以去衡量这个成本。
2022-10-27 10:18:14
393
原创 主流大数据调度工具对比(DolphinScheduler特点)
大数据环境下,调度工具比不可少,离线批任务和准实时任务都需要调度去驱动。支持暂停恢复操作. 支持多租户,更好的应对大数据的使用场景. 支持更多的任务类型,如 spark, hive, mr, python, sub_process, shell。DAG 监控界面,所有流程定义都是可视化,通过拖拽任务定制DAG,通过API方式与第三方系统对接, 一键部署。支持自定义任务类型,调度器使用分布式调度,调度能力随集群线性增长,Master和Worker支持动态上下线。
2022-09-20 13:25:23
1358
原创 大数据中台技术组件
元数据管理:开源的Netflix的Metacat、Apache的Atlas,商业化的产品Cloudera Navigator。任务调度:Oozie,Azakaban,AirFlow,DolphinScheduler等。在线实时分析:ClickHouse,Kylin,Doris,Druid,Kudu等。数据计算:MapReduce,Spark,Flink。资源调度:YARN,Mesos,Kubernetes。数据存储:HDFS,HBase,Kudu等。交互式查询:Impala,Presto。
2022-08-23 18:56:35
602
原创 ClickHouse用户路径分析原理及实现
若只有单条路径app_lunch也算)的所有session,app_lunch1表示以app_lunch为起始事件的session数共有3405,所有数据会分别流向app_lunch2、download2、#-1#2,分别为用户路径为app_lunch->app_lunch->xxx->xxx……如:用户路径为app_lunch->download->#-1#,则此路径内位于第二个节点的download为图中的download2事件,路径内位于第三个节点的#-1#为图中的#-1#3事件。...
2022-08-04 15:04:03
1556
原创 SQL常用语句
SELECT*FROMempWHEREdept_idIN(SELECTidFROMdeptWHERENAME='财务部'ORNAME='市场部');--按照性别分组。主要介绍排序查询、聚合函数、模糊查询、分组查询、分页查询、内连接、外连接、子查询。SELECTidFROMdeptWHERENAME='财务部'ORNAME='市场部';语法CREATEUSER'用户名'@'主机名'IDENTIFIEDBY'密码';...
2022-07-25 09:41:44
111
1
原创 系统等保指的是信息系统的安全保护等级
三级等保是国家对非银行机构的最高级认证,4102属于“监管级别”,由国家信息安全监管部门进行监督、检查,认证测评内容分别涵盖5个等级保护安全技术要求和5个安全管理要求,包含信息保护、安全审计、通信保密等近300项要求,共涉及测评分类73类,要求十分严格。应用的安全评估(包括应用安全扫描、渗透测试及风险评估),应不存在中高级风险以上的漏洞(例如SQL注入、跨站脚本、网站挂马、网页篡改、敏感信息泄露、弱口令和口令猜测、管理后台漏洞等);安全管理制度、安全管理机构、人员安全管理、系统建设管理、系统运维管理。...
2022-07-18 14:49:56
2256
原创 Linux ab 压力测试工具
在Apache服务器的套件中,有一个叫做 ab (ApacheBench) 的工具。ApacheBench 主要是用来测试Apache服务器执行效率用的ApacheBench 可以针对某个特定的 URL 仿真出连续的联机请求同时还可以仿真出同时间点数个相同的联机请求,因此利用 ApacheBench 可帮助我们在网站开发期间仿真实际上线可能的情况,利用仿真出来的数据做为调整服务器设定或程序的依据。ab 是 Apache 附带的接口压力测试功能,非常简单易用。在测试服务端程序自身运行时长和跨区测试接口反馈时长
2022-07-06 18:50:27
343
原创 Linux服务器安装FineBI分析工具
1.Linux 系统下安装步骤1.1 下载安装文件如果 Linux 连接外网的话,也可直接到 官网下载 Linux版本的安装包。或者在 Linux 命令行下,使用:wget https://fine-build.oss-cn-shanghai.aliyuncs.com/finebi/5.1.3/stable/exe/spider/linux_unix_FineBI5_1-CN.sh回车开始下载1.2 安装 FineBI文件下载好后,在 Linux 命令行切换到该目录中,先给安装文件权限,如
2022-05-19 14:16:56
2355
2
原创 用户运营指标体系搭建逻辑
一、指标的意义指标的四个价值点: 表述业务场景的业务特征。 表述业务场景的运营效果。 表述业务场景的未来方向。 表述业务场景的衍生价值。下图是一个常见的用户活跃指标体系,顶层指标即为北极星指标,拆解过程中产生的指标是汇总指标,最底层无法再拆解的是原子指标。指标体系包含2个核心概念: 指标:具备业务意义,能准确反应业务情况的数据。 必须具备清晰的业务意义 只能是数字,不能是文本 维度:描...
2022-03-24 18:53:04
4741
原创 hive中insert时使用日期分区 获取分区的方法
hive中按 日 月 年 分区 获取分区的方法1、按日分区 比较简单直接将查询的日期作为分区即可insert overwrite table sale_store_timeline partition (inc_day)selectbusiness_date --营业日期,date_type ,avg_cus_price ,business_date as inc_day --日分区fromselect * from sale_store
2022-03-11 09:46:52
1919
转载 程序员必备的学习网站推荐
注:我收集的网站很有限,可能有很多网站没有列出,希望大家可以通过评论告知我,我会尽快添加。一、资源导航网站Web前端导航(http://www.alloyteam.com/nav/)腾讯AlloyTeam团队的前端导航站二、开源代码托管平台1. GitHub(https://github.com)gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名gitHub。gitHub于2008年4月10日正式上线,除了git代码仓库托管及.
2022-02-09 09:51:30
3136
转载 C++实现tensorflow线上服务
tensorflow_servicetensorflow是被广泛应用的深度学习框架,提供丰富的API接口,可以省去很多自己的开发工作。python版本的tensorflow是被应用最多的。但是python的执行效率偏低。有很多公司后台是用C++编写的,为了更好的将深度模型应用到线上,通常需要进行模型在线inference。最近在做tensorflow模型的C++线上inference, 模型训练仍然利用python tensorflow验证效果,实际上线时,采用更加高效的C++ API进行服务。将经
2022-01-30 14:02:58
711
原创 CDH查看NameNode高可用NameService名称
cdh 查看 namenode 高可用nameservice名称,如下图所示:第一步:第二步:第三步:或者通过以下方式查看:
2022-01-25 09:31:20
1456
原创 数仓模型规范-(刷新/存储/时间维度/废弃归档规范)
一、刷新周期规范 刷新周 期 刷新周期命名 刷新周期缩写 描述 天 day d 每天更新数据 周 week w 每周更新数据 月 month m 每月更新数据 季度 quarter q 每季度更新数据 年 year y 每年更新数据 实时 realtime r 实时更新数据 二、存储策略规范策略类型 后缀缩写 每
2022-01-05 14:45:45
513
原创 搜索产品业务理解
在信息获取方式上,当用户在没有明确诉求场景下会逛信息流,当用户有明确诉求时则使用搜索做信息获取。今天我带大家简单了解一下搜索产品的基本知识,并介绍搜索场景的核心指标体系。01 产品视角的搜索 搜索入口:即输入框,典型入口位置有首页顶部搜索框。是用户发起搜索的窗口。 搜索前:即搜索起始页,这个页面一般有两个产品定位:扩认知(比如点评搜索起始的发现模块,主要是推荐一些平台强运营的关键词,建立用户点评可以搜索商户以外内容的认知)。提效率(比如历史搜索关键词)。 搜索中:...
2021-12-10 15:10:25
1921
原创 Centos7安装jira7.3方法
IRA是Atlassian公司出品的项目与事务跟踪工具,被广泛应用于缺陷跟踪、客户服务、需求收集、流程审批、任务跟踪、项目跟踪和敏捷管理等工作领域。JIRA中配置灵活、功能全面、部署简单、扩展丰富,其超过150项特性得到了全球115个国家超过19,000家客户的认可。准备好:po_jie_工_具下载地址:链接:https://pan.baidu.com/s/1ggtAR0v 密码:p4gh这面包含了链接MySQL要用的驱动。一、Centos7上安装Java和Mysql数据库准备
2021-09-28 09:42:48
1039
原创 superset设置自动刷新
superset想实现动态展示,搜索了一下果然有这个功能,莱斯够~1、选择下面的Auto-refresh dashboard2、选择 set auto-refresh interval3、选择需要的刷新时间4、 保存即可
2021-08-25 10:10:21
1032
原创 Linux curl 命令get/post 详解
最近工作频繁使用curl命令,加深了对curl有关post json 格式,及json数据大的问题,以此记录。curl命令curl 是Linux综合传输命令,支持上传下载,在http层面功能强大。相信接触Linux的人对它都有自己的了解。curl 格式curl [options...] <url>#more infocurl --helpcurl 常规用法1.可得到页面的html数据2.感知服务器的网络状态(是否可以连接网络)curl urlcurl http
2021-07-19 18:30:07
992
原创 CentOS7快速安装MySQL5.7
在CentOS中默认安装有MariaDB,这个是MySQL的分支,但为了需要,还是要在系统中安装MySQL,而且安装完成之后可以直接覆盖掉MariaDB。1 下载并安装MySQL官方的 Yum Repository[root@localhost ~]# wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm 使用上面的命令就直接下载了安装用的Yum Repository,大概25KB的样子.
2021-07-17 10:37:05
122
原创 最大边界相关算法MMR(Maximal Marginal Relevance) 实践
NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容,这样读者就能够通过最少的文字,了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义,所以在做长文本分类任务时,我们可以采用文本摘要算法将长文本的摘要抽取出来,在采用短文本分类模型去做文本分类,有时会起到出奇的好效果。文本摘要自动生成算法文本摘要抽取算法主要分为两大类: 一种是生成式:生成式一般采用的是监督式学习算法,最常见的就是sequence2sequ...
2021-05-26 13:58:20
1702
原创 使用Java调取Python训练的模型
在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。一、PMMLPMML 是 Predictive Model Markup Language 的缩写,翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言,用于表达数据挖掘模型,可以用来在不同的应用程序中交换模型。也就是说它定义了一个标准,不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理
2021-05-06 14:40:47
2772
原创 使用nginx反向代理解决端口跨域的问题
场景描述:web前端代码和后端代码在同一台服务器上,使用不同的端口,在使用js调用的时候出现跨域访问的问题,我们使用nginx反向代理解决这个跨域的问题。公网IP是49.23.11.2实现web前端调用http://49.232.119.23:8899/api/echarts/list解析跳转到http://127.0.0.1:8822/[root@prod logs]# cat /usr/local/nginx/conf/conf.d/text.confserver {...
2021-04-29 12:45:06
973
原创 IT开发团队分工及内容
前后端的概念前端1.前台(用户用的)2.后台(职员用的,老板,财务,运营人员,客服,运维)后端1.服务器(nginx(分发请求的操作器),2.uwsgi(处理http请求的服务器),3.django(接收请求,返回响应),4.mysql,redis)原型图1.产品经理2.提供产品的功能,操作,逻辑效果图 1.ui人员 2.提供给前端人员,根据效果图,编写html代码前端页面 1.前端人员 2.画页面 3.调接口后端接口...
2021-04-12 11:17:26
1624
原创 Spark任务内存优化记录
前两天又接了一个Spark任务,倒不复杂,依然是检索HDFS上的日志数据这样的事情。不过瞅着组内跑着十几二十个任务内存一共只有160来G的yarn集群,有些欲哭无泪。事情还是要做的,反正执行时间要求不太严格,只能想办法尽量压缩内存的占用了。先说下背景:现在使用的yarn集群由8个容器组成,每个容器的内存大概20G;工作内容是检索数据,源数据大概1T左右,取出来的目标结果数据在2~8G这样子。最开始的时候查询任务是直接使用sparkSql来完成。随着数据量的上升很快就遇到了最经典的两个问题:Sta
2021-02-20 11:17:39
385
原创 redis操作 + StrictRedis使用(实用命令)
Redisstring类型 字符串类型是 Redis 中最为基础的数据存储类型。 它在 Redis 中是二进制安全的,这便意味着该类型可以接受任何格式的数据。 如JPEG图像数据或Json对象描述信息等。 在Redis中字符串类型的Value最多可以容纳的数据长度是512M。set:#设置键值:set key value#设置键为name值为xiaoming的数据set name xiaomingsetex:#设置键值及过期时间,以秒为单位setex...
2020-12-02 13:55:20
3630
原创 推荐展示:信息流列表的刷新和加载
在信息流推荐业务中,用户浏览过程中涉及到上拉和下拉动作,下文解决如何实现相关操作。问:上拉加载和下拉刷新,请求的数据有什么不同?答:这是个概念性问题,上拉加载为刷新,下拉加载为分页。(是不是读起来感觉有点怪怪的)这其实也是一个表达习惯或认知问题,就像左滑/右滑、南风/北风一样。(南风是从南方吹来的风,气象上把风吹来的方向确定为风的方向。)比如同事告诉你在APP上“往下滑,找到某某发来的消息”,但此时你的动作却是向上滑。另一个场景是在PC端拖动滚动条浏览长页面,当我们希望向下浏览时,是向下拖动滚动条
2020-11-12 11:58:31
2356
2
Python深度学习(Deep Learning With Python中文版)
2018-09-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人