- 博客(144)
- 资源 (2)
- 收藏
- 关注
原创 ERROR: pip‘s dependency resolver does not currently take into account all the packages that are inst
所以,这个命令的目的是安装wxpy库,并确保安装最新版本,即使已经安装了旧版本或其他版本。是要安装或更新的Python库的名称。在这种情况下,它是一个用于微信机器人的库,可以让你编写Python程序来与微信进行交互。是一个用于在Python中安装或更新wxpy库的命令。忽略已经安装的同名包,即使已经存在旧版本的wxpy,也会继续安装最新版本。是Python的包管理工具,用于安装和管理Python包。升级已经安装的包到最新版本,如果已经存在的话。命令的一个子命令,用于安装Python包。
2023-10-13 20:21:15 229
原创 用Python和开源NLP工具库开发一个小型聊天机器人原型
请注意,这只是一个简单的聊天机器人原型,只能回答预定义的问题。这段代码首先加载spaCy英语模型,然后定义了一个简单的问题和答案字典。接下来,它进入一个循环,接受用户的问题输入,使用spaCy处理用户输入,然后尝试查找匹配的问题并返回相应的答案。在本示例中,我们将演示如何创建一个简单的问答聊天机器人,它可以回答一些基本问题。要扩展聊天机器人的能力,您可以考虑使用更强大的自然语言处理和对话管理工具,如NLTK、Rasa NLU、Dialogflow等,以构建更复杂和交互式的聊天机器人。
2023-10-13 15:11:07 326
原创 Pandas 入门指南
Pandas是Python数据科学领域中不可或缺的工具之一,它使得数据处理和分析变得更加容易。在本篇技术博客中,我们总结了Pandas的核心知识点,包括数据结构(DataFrame和Series)、数据的创建、数据的访问和操作、数据清洗和处理缺失值、数据可视化以及数据的导出。掌握Pandas可以让您更高效地处理和分析结构化数据,是数据科学家和分析师的重要技能之一。通过学习和实践,您可以逐渐掌握Pandas的使用,将其应用于您的数据项目,并加强您的数据分析和数据科学能力。希望这篇博客对您学习Pandas。
2023-10-13 15:02:20 256
原创 NumPy入门文档
NumPy是Python中不可或缺的库,用于数值计算和数据处理。它提供了强大的多维数组对象以及一系列数学函数,使得数据科学家、工程师和研究人员能够高效地执行各种数学和统计运算。掌握NumPy的基础知识是进行数据分析、机器学习和科学计算的重要一步。通过本篇技术博客,您应该已经了解了NumPy的核心概念,包括ndarray、数组的创建、基本操作、索引和切片、聚合操作和广播。进一步学习和实践将帮助您更深入地掌握NumPy,并将其应用于实际项目中。
2023-10-13 14:54:46 330
原创 bigquery json处理函数json_extract和json_extract_scalar的区别
bigquery处理函数 json_extract和json_extract_scalar的区别
2022-12-21 10:34:52 1608
原创 数仓遍历 array数据类型
需要处理的字段app_comment_score数据类型:array<structscore:double,num:bigint>app的分数和次数数据展现形式select app_id,app_score_num from dws.app_comment_score_di where dt='20211031' limit 2;app_idapp_score_num1[[7.0,1],[6.0,1],[10.0,26],[null,3],[8.0,1]]
2021-11-01 11:21:47 1278
原创 hive least() 和min()的区别
hive least() 和min()的区别select least(100,200,300,400) as min_num,greatest(100,200,300,400) as max_num--100 400共同点:都是求最小值的意思不同点:least(col1,col2,col3) --里面可以传多个参数min(slary) --仅可以传一个参数...
2021-10-19 10:14:25 1920
原创 crontab表达式,月末执行
0 010 L * ? 月末10:00执行0 15 10 ? * MON-FRI 周一至周五的上午10:15触发0 0 2 1 * ?表示在每月的1日的凌晨2点调整任务
2021-08-03 14:27:49 4226
原创 hive 求两个月之间的时间间隔(月留存)
最近在计算日留存和月留存日留存通常会用到的函数是datediff()使用格式如下:datediff(yyyy-MM-dd,yyyy-MM-dd)可以计算出两个日期间隔多少天月留存的话用这个就不太合适了,因为有的月份是29天有的是30天还有31天的,所以想要计算出间隔天数➗月份天数是不准确的因此我先用: show functions like '*month*';查出关于month的函数有如下几个:function0 add_months1 dayofmonth2 ...
2021-07-06 11:08:08 6744
原创 hive 高阶函数 array_sort()
由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可。sort_array就是对array进行排序,且只能升序这里我们首先将dt和mark字段拼接到一起然后转成list格式collect_list(concat_ws('|', dt, mark))得到的结果:[2021-06-13|0,2021-05-30|1,2021-04-18|0,2021-05-23|0,2021-05-09|1,2021-
2021-06-28 15:36:02 3083 1
原创 hive高阶函数(1)repeat、posexplode
1.repeat('ab',num)ab:要复制的字符串num:要复制的次数2.posexplode() 可以行转列,并把索引取出SELECT posexplode(split(repeat('1,', 9), ','))
2021-06-28 10:11:10 3127
原创 row_number()over 进行去重处理
一个ID对应多个账号,要取长度比较短的账号select * from(select *,row_number()over (partititon by account_id order by length(customer_name) asc) rankfrom dws.account_dimwhere dt='20210621')t where t.rank=1;
2021-06-23 09:55:27 1388
原创 hive--连续销售天数的最大记录
-- 求: 每家店铺连续销售天数的最大记录 (针对以下数据作答就好)id,tim,saya,2019-02-01,300a,2019-02-02,500a,2019-02-03,550a,2019-02-05,400a,2019-02-06,500b,2019-02-01,300b,2019-02-02,500b,2019-02-03,550b,2019-02-04,400b,2019-02-05,500参考示例:+-----+------+| id | _c1 |+-...
2021-02-26 11:26:18 392
原创 hive经典案例额---行转列汇总计数
案例 3数据如下:uid,eventu01,ad_clicku01,ad_show u01,favor_skuu01,ad_clicku01,pageviewu01,searchu02,ad_clicku02,ad_showu02,favor_skuu02,addcartu02,pageviewu02,pageview要求:需求1:假如数据中的事件类型是已知且固定的,求如下报表:+------+-----------+----------+-----------...
2021-02-26 11:11:20 253
原创 hive 经典案例--打地鼠连续命中次数问题
案例2:打地鼠游戏记录求连续命中次数 --beat 1 代表击中 0 代表未击中uid,seq,beatu01,1,1u01,2,0u01,3,1u01,4,1u01,5,0u01,6,1u02,1,1u02,2,1u02,3,0u02,4,1u02,5,1u02,6,0u02,7,0u02,8,1u02,9,1u03,1,1u03,2,1u03,3,1u03,4,1u03,5,1u03,6,0求:连续击中3次以上的用户参考示例:+------+.
2021-02-26 11:02:16 348
原创 hive udf案列,实战操作
转自:https://blog.csdn.net/zsigner/article/details/106885634?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242自己做了些小修改,添加了创建永久函数的方法,请大家参考1.数据格式实例:-------------------------------------1,zhangsan:18:beijing|na
2021-02-04 16:39:54 160
原创 hive--连续登陆天数问题
登陆表:login_table字段user_id,login_dt连续登陆 user_id login_dt a 2020-06-01 a 2020-06-02 a 2020-06-03 b 2020-06-01 b 2020-06-02 创建表:create table if not exists adm_sdk_activity_analysis_total( user_id ...
2021-02-04 15:37:20 478
原创 spark血统--宽窄依赖(史上最简单的解释)
Wide Dependencies (宽依赖):是指子RDD的分区依赖于父RDD的多个分区或所有分区(子rdd和父rdd的关系是一对多的关系)Narrow Dependencies(窄依赖):是指父RDD的每一个分区最多被一个子RDD的分区所用(一个子rdd和父rdd的关系理想情况下是一对一)...
2021-01-20 11:50:51 530
原创 hive解析json
获取json accountId内容:trim(get_json_object(data_line,'$.data.accountId')) json格式:{ "data":{ "has_social_security":"是", "sdk_type":"backend", "installment_account":93, "sdk_lib_method":"com.xx.data.analytics.Analy231
2021-01-19 18:26:59 105
原创 hive时间戳转换时间格式(yyyy-MM-dd HH:mm:ss),时间戳转小时
转化前格式:1607756309127转化后格式:2020-12-12 14:58:29转化方法:from_unixtime(cast(substr(event_timestamp,1,10) as bigint), 'yyyy-MM-dd HH:mm:ss')
2021-01-19 18:01:43 4842
原创 hive窗口函数--向上向下取值 lead()、lag()、first_value()、last_value()
典型的应用场景:对访问间隔时间进行统计获取上次访问时间:LAG(visit_time,1) OVER(PARTITION BY uid ORDER BY visit_time asc) AS last_visit_time 获取下次访问时间: LEAD(visit_time,1) OVER(PARTITION BY uid ORDER BY visit_time asc) AS next_visit_time 获取第一次访问的url,分组排序后第一个值: FIRST_VALUE(url) O..
2021-01-07 11:53:24 4795
原创 linux 运维入门--目录结构
目录结构:先来熟悉下linux系统中各个目录文件夹的大致功能/ 根目录/boot 存放内核以及启动所需的文件/dev 存放设备目录/etc 存放系统配置文件/home 普通用户的宿主目录,用户数据存放在其主目录中/lib 存放必要的运行库/mnt 存放临时的映射文件系统,通常用来挂载使用/proc 存放存储进程和系统信息/root 超级用户的主目录/sbin 存放系统管理程序/tmp 存放临时文件...
2021-01-06 10:42:58 117 1
原创 使用round函数,保存的数值仍然是整数
round函数的作用是对浮点数进行四舍五入,使用方法:round( x [, n] )x:数值n:数值表达式,表示从小数点位数请检查字段类型是否正确,使用单精度浮点型或者string都可以解决此问题。
2020-12-22 10:32:30 1894
原创 python--pandas 写数据到mysql
import pandas as pd from sqlalchemy import create_engine conn = create_engine('mysql+mysqldb://root:password@localhost:3306/databasename?charset=utf8') df = pd.DataFrame() df["A"] = [1,2,3,4] df["B"] = [11,22,33,44] df.to_sql('表名',con=engine,if.
2020-12-17 10:52:18 295
Flink应用案例介绍.pdf
2019-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人