归去来？-CSDN博客

原创记录一次从https接口提取25G大文件csv并落表的经历

摘要本文记录了处理大型HTTPS接口CSV数据的技术探索过程。面对20GB+的CSV文件下载和结构化存储需求，作者尝试了多种Python方案：初始尝试使用pandas直接读取CSV并写入MySQL/Hive，遭遇连接超时问题转向PySpark方案，配置了16GB内存、8个executor等资源参数，但仍因HTTPS协议支持问题失败最终采用requests库流式下载结合pandas分块处理的方法，设置1MB的chunk_size来优化内存使用整个过程揭示了处理大规模网络数据时面临的技术挑战，包括协议

2026-01-22 15:20:21 1065

原创频率主义的正则化和概率主义的边际化

学习了王天一博士关于正则化和边际化的讲解，记录笔记如下：1、线性回归中，样本量过少或者特征因子过于精细，容易出现过拟合（overfitting）的问题，通俗地说就是模型过于复杂，削弱了其的泛化能力，正则化和边际化正好可以用来解决过拟合问题。过拟合线性具体表现为训练集模型表现好，但在测试集中模型表现不好。2、正则化（regularization）是用于解决过拟合问题的统称，通过动态调整估计参数的取值来降低模型的复杂度，以偏差的增加为代价来换取方差的下降，

2024-05-16 15:25:51 1072

原创线性回归学习笔记

换句话说，多元线性回归可以有足够的精确性，但对于该精确性的合理解释会比较难，因为在多个属性中，可能有其中多组子属性的组合都能拟合到近似最优的模型效果，但对不同组的子属性的组合解释，会因为属性不同而有很大区别，这就是统计学家莱奥·布雷曼口中的“罗生门”（Rashomon）。它的值越大代表，拟合的结果越可信；将“罗生门”深挖一步，就是机器学习和统计学在认识论上的差异：统计学讲究的是“知其然，知其所以然”，它不仅要找出数据之间的关联性，还要挖出背后的因果性，给计算出的结果赋予令人信服的解释才是统计的核心。

2024-05-15 17:56:26 505

原创通俗地理解最大似然估计以及统计机器学习

由此而言，频率学派的观点就是，某类事件的通用函数其参数是固定不变的常量，而用来估计参数的数据是随机的变量，每个数据都是相同参数下的一次独立重复实验的结果。在已知样本数据的前提下，通过求似然函数最大值的参数，也就是参数是变量，求似然函数的极值，对似然函数取对数，令其导数为0，求解参数值。在真实的学习算法中，无论是分类问题中的误分类率，还是回归问题的中的均方误差，都是经验风险的实例，而所谓的最优模型也就是使经验风险最小化（empirical risk minimization）的那个模型。（1）写出似然函数；

2024-04-24 12:04:31 552 1

原创关于活跃用户的重要指标

DEVELOPMENT OF STICKNESS=SoU2/SoU1 黏性发展指数，代表黏性发展趋势，当DoS>1时，表示用户黏性在提升，并且该数值越大说明用户黏性提升越快；当DoS<1时，表示用户黏性在降低，并且该数值越低说明用户黏性降低越快。STICKNESS OF USERS （SoU）用户黏性系数 = DAU/MAU，代表用户的活跃度，同样体量下，用户活跃的程度；

2024-03-07 15:00:35 655

原创 hive里面，随机排序后取TOP N，与用limit取N条，有差别吗？

【代码】hive里面，随机排序后取TOP N，与用limit取N条，有差别吗？

2023-12-07 10:43:08 336

原创输入一段SQL，如何预估运行完该SQL，需要多长时间？需要多少资源？

SQL查询计划是指数据库在执行SQL查询时生成的查询执行计划，它描述了SQL查询的执行方式和过程，包括使用哪些索引、表扫描等。SQL查询计划是数据库在执行SQL查询时生成的查询执行计划，它描述了SQL查询的执行方式和过程，包括使用哪些索引、表扫描等。预估SQL运行时间和资源需求是一个复杂的问题，需要考虑多个因素。三、如何根据查询计划进行优化和调优？一、SQL查询计划在哪里可以看到？二、如何读懂SQL查询计划？

2023-10-12 11:36:12 1331 1

原创大数据调优与传统数据调优之间有哪些异同点？

二、传统数据调优具体有哪些方法？三、大数据调优具体有哪些方法？

2023-10-12 11:15:33 569

原创如何快速实现一个可视化看板？

对于大型数据集，Python的可视化库可以应用各种技术来处理和可视化数据，例如数据降维、聚类、图像处理等。Python可以通过多种可视化库来实现数据看板，例如Matplotlib、Seaborn、Plotly等。这些库可以处理各种规模的数据，从小型数据集到大型数据集都可以应用。对于小型数据集，Python的可视化库可以轻松地绘制图表、线图、散点图等，以可视化数据的方式来帮助用户理解和分析数据。因此，Python的可视化库可以支持各种规模的数据处理，从小型数据集到大型数据集都可以应用。理由：高端大气上档次。

2023-09-22 11:11:27 1237

原创关于埋点上报

相对于后台上报，前端上报的优势在于能够减少网络延迟，提高数据的实时性和准确性。但是，前端上报也存在一些问题，例如需要考虑网络状况和客户端性能等因素，同时也可能会存在部分数据被篡改或屏蔽的风险。相对于前端上报，后台上报的优势在于能够更好地保证数据的安全性和完整性，并且可以对上报的数据进行更加灵活的处理和分析。总的来说，前端上报和后台上报都有其优缺点，具体选择哪种方式取决于具体业务需求和技术实现的考虑。埋点前端上报和后台上报的区别主要体现在上报的时机和上报的内容。二、埋点前端上报和后台上报之间的区别是什么？

2023-09-21 11:17:47 1047

原创大数据处理框架及引擎介绍

主流的大数据处理框架包括以下三类五种：1、仅批处理框架：Apache Hadoop2、仅流处理框架：Apache Storm、Apache Samza3、混合框架：Apache Spark、Apache Flink

2022-09-15 19:28:57 15384 1

原创大数据开发之小文件合并

文件的平均大小=分区大小/文件数，理想情况下，文件的平均大小在128MB~256MB之间，如果文件的平均大小过于小，则认为数据表里小文件过多，可以进行文件的合并。

2022-08-26 18:23:33 1756

原创 windows 命令行操作

1、运行里输入cmd，打开命令行2、用cd …可以回到上一级目录3、返回最开始的路径，用cd 4、在同一磁盘下，用cd 目标路径跳转5、不在同一磁盘下，要用cd …命令，先跳转到另一磁盘，如跳转到c盘最上层目录，用d:可以跳转到D盘6、文件操作命令创建： md 文件名拷贝：copy 需要操作文件名目标路径（相当于复制+粘贴）删除：del 文件名（会删除文件夹下所有非文件夹的文件但是文件夹会被保留）rd 文件名（会删除当前的空文件夹，注意是当前哦）rd /s/q 目标文件名（会删除

2022-02-10 15:53:52 9271

原创 python 使用scipy中的curve_fit拟合自定义曲线

Scipy是一个用于数学、科学、工程领域的常用软件包，可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵，使Numpy和Scipy协同工作，高效解决问题。scipy.optimize中有curve_fit方法可以拟合自定义的曲线，如指数函数拟合，幂指函数拟合和多项式拟合，也能拟合直线方程函数，下面汇总示例如下：一、先导入所需要的包from scipy.optimize import curve_fitimport matplotlib.pyplo

2022-01-20 16:36:17 10237 5

原创 python dataframe新增一列

1、直接在后面新增一列指明列名，并赋值即可：data[‘addlist’]=[1,2]2、在指定位置新增一列用insert()函数，data.insert(位置,列名,列值)，例如：data.insert(2,‘c’,’’)3、根据现有列计算生成新的列dataframe 根据某列的值生成新的列df2[‘是否逾期’]=df2.apply(lambda x:0 if x.应付日期>today_time else 1,axis=1)df2[‘是否到期90天’]=(today_time -

2022-01-12 11:55:01 58410 1

原创 python 自定义函数返回值

python自定义函数，在返回值之前，不能print该值，否则会返回null。

2022-01-12 11:21:56 1387

原创 spyder 清屏操作

1、清除所有变量reset ，在接下来的提示中选择y2、清除所有输入变量reset in ，在接下来的提示中选择y3、清除所有输出变量reset out，在接下来的提示中选择y

2022-01-12 10:45:33 1218

原创 python中map函数的用法

Python函数编程中的map()函数是将func作用于seq中的每一个元素，并将所有的调用的结果作为一个list返回。如果func为None，作用同zip()。函数格式为：map(func, seq1[, seq2,…]) ，当有多个迭代参数对象，同时，迭代对象内的元素个数又不一致时，以最短的那个迭代对象作为停止的标准。作用：会根据提供的函数对指定序列做映射。1、当seq只有一个时，将函数func作用于这个seq的每个元素上，并得到一个新的seq。一个seq时，可以使用filter()函数代替，那

2022-01-11 14:41:18 2115

原创 python 自定义函数的返回值

python中自定义的函数，有的有返回值，有的没有返回值，且返回值的类型也需注意。1、无返回值例如 list 的 append 操作就是无返回值的，换句话说就是不能进行如下的连续操作：list = []list.append(1).append(2)2、返回值的类型自定义函数的返回值是 list/tuple，或者单个变量，...

2022-01-11 11:22:04 9041

原创 python 实现并行计算加快速度

方法之一：运用多核CPU，进行python多进程计算，使用multiprocessing这个包。multiprocessing模块涵盖了一系列方法来处理并行执行例程。这包括进程，代理池，队列以及管道。Pool.map()方法需要三个参数 - 在数据集的每个元素上调用的函数，数据集本身和chunksize。chunksize不是必须的。如果未明确设置，则默认chunksize为1。示例：import multiprocessingimport timeimport osprint(“温馨提示：本机

2022-01-11 10:54:20 2937

原创 python 报错：IndentationError: unexpected indent

问题表现：运行一段python脚本时，报错：IndentationError: unexpected indent产生原因：python脚本中空格和tab字符看起来是一样，但是程序运行又不一样，这样就会报错；解决办法：1、前面的空格可能是中文空格，应该改成英文空格；2、前面的空格可能是tab键，python的空格与tab键不能通用。...

2022-01-10 15:50:23 705

原创 python操作mysql数据库

创建数据库‘’‘创建数据库’’’import pymysql#打开数据库连接，不需要指定数据库，因为需要创建数据库conn = pymysql.connect(‘localhost’,user = “root”,passwd = “123456”)#获取游标cursor=conn.cursor()#创建pythonBD数据库cursor.execute(‘CREATE DATABASE IF NOT EXISTS pythonDB DEFAULT CHARSET utf8 COLLATE u

2022-01-07 15:37:49 1748

原创 Python报错：ModuleNotFoundError: No module named

问题表现：在spyder里安装好pymysql后，无法导入该包，提示：import PyMySQLTraceback (most recent call last):File “”, line 1, in import PyMySQLModuleNotFoundError: No module named ‘PyMySQL’问题原因：核心原因是需要启动的包所在文件夹，和正运行的python.exe不在一个文件夹下，可能是安装了多个版本的python。解决方案：1、用!pip instal

2022-01-07 12:03:22 12717

原创 PYTHON中的%的意思

1、%，代表数学运算符号，求模；2、%还用在python的格式化输出，比如：a = ‘test’print ‘it is a %s’ %(a)打印的结果就是 it is a test3、PYTHON中数据库操作https://blog.csdn.net/qq_30008595/article/details/84995241?ops_request_misc=&request_id=&biz_id=102&utm_term=python%20%E8%AF%BB%E5%8F

2021-12-21 14:43:20 4751

原创 python 计算日期差

from datetime import datetimecur_day = datetime(2019, 7, 30)next_day = datetime(2019, 7, 31)print((next_day - cur_day).days) # 1print(“ok”)

2021-12-21 10:58:43 1014

原创 PYTHON函数传参的几种方法

引用：https://blog.csdn.net/qq_41500249/article/details/102788966?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163999652116780271926516%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=163999652116780271926516&biz_id

2021-12-20 18:36:33 802

原创 PYTHON基础

一、字符串1、字符串的创建使用单引号或者双引号，都可以创建字符串，两者联合使用，可以创建字符串中的字符串的效果：b = ‘my_name is “TOM”’连续三个单引号或者三个双引号，可以创建多行字符串：resume = ‘’’ name=“gaoqi” company=“sxt” age=18 lover=“Tom”’’’空字符串’ '，不包含任何字符且长度为0，len()用于计算字符串的长度，即含有多少个字符。2、字符串中的转义符号\ 反斜杠符号\b 退格(Backspace)\n 换

2021-12-15 10:09:56 1938

原创 HIVE开发常用语法介绍

1、str_to_map-字符串转为map格式：https://blog.csdn.net/yuanyangsdo/article/details/64441165nvl(str_to_map(nvl(qua,‘LCID=0000’),’&’,’=’)[‘LCID’],nvl(split(qua,’&’)[6],‘0000’)) as lcidcase nvl(str_to_map(nvl(qua,‘TM=01’),’&’,’=’)[‘TM’],‘01’) when ‘04’ t

2021-12-09 15:45:46 856

原创关于样本偏差

看两个案例;X大学设立了一个著名的音乐剧项目。该项目只为一小批具有非凡音乐潜质的高中毕业生提供奖学金。简老师是这个项目的负责人，她有一些朋友是当地高中的戏剧课老师。一天下午，她去斯普林菲尔高中考察一个学生的情况，这个孩子是由其戏剧课老师强力推荐的，据说是一个十分优秀的年轻女演员。简老师观看了一出由罗杰斯与汉默斯坦创作的音乐剧的彩排，那个女孩子在剧中担任主角。结果，她说错了好几句台词，看上去她对角色的把握也不好，表现得像是几乎没什么舞台表演经验。简老师告诉她的同事，她现在十分怀疑她的朋友的判断。这是一个明

2020-12-24 11:41:45 6767

原创 PYTHON代码换行的几种方式

1、在一行代码后加“反斜杠\”，对一般表达式和字符串都能起作用；2、三引号"’ '"，对字符串起作用；

2020-11-02 18:42:15 2208

原创 tableau之仪表板与故事

仪表板（dashboard）是显示在单一位置的多个工作表和支持信息的集合，它便于同时比较和监视各种数据。简单来说，就是把很多张图表凑到一起，方便系统地查看数据，就像一张互动性很强的小海报。故事(story)是一个包含一系列共同作用以传达信息的工作表或仪表板的工作表。就类似于一个Tableau版的PPT展示，用来向吃瓜群众们流畅present你的图表。为了更系统地查看数据，可以创建一个仪表板。单击工作簿底部的“新建仪表板”选项卡，然后单击工作表（Top States for Data Jo

2020-08-28 12:05:04 5524 1

原创 R常用语法

1、查看变量类型： class查看第一层类别，mode查看第二层类别，typeof查看第三层类别2、查看长度：length()3、查看行列：nrow-行 ncol-列4、分组统计：tapply(y,x,sum) 以x分组统计y，统计函数是sum5、行列转置：t()6、查看数组维数：dim()7、所有参数通用查看函数：str、attribute8、行列合并：cbind-扩展列，rbind-扩展行9、获取数据框的所有行名：rownames(数据框名)10、获取数据框的所..

2020-08-27 16:47:08 463

原创 kmeans聚类算法提高聚类性能的方法

1、评估最佳k值计算每个点到簇质心的距离平方值，评价聚类质量。2、导致聚类效果较差的原因有收敛到了局部最小值，而非全局最小值，也就是还需要继续收敛；3、用误差平方和SSE来度量聚类效果。即程序中clusterAssment矩阵的第一列之和，SSE越小表示数据点越接近它们的质心，聚类效果也越好。4、一种可以肯定降低SSE的方法是增加簇的个数，但违背了聚类的目标，聚类的目标是在保持簇数目不变的情况下提高簇的质量。5、对生成的簇进行后处理，一种方法是将具有...

2020-08-27 16:44:54 3137

原创 python初使用

1、安装包：打开anaconda prompt，在所需要的环境下输入conda install requests; 打开anaconda prompt，在所需要的环境下输入pip install requests，等待下载完成即可。打开anaconda中的spyder 或者qtconsole，在命令行中输入！pip install requests，等待下载完成即可。没有下载anaconda的，必须要...

2020-08-27 16:43:11 345

原创平台架构案例

项目名称：用户上网行为分析系统软件架构：kafka+hadoop+sqlite+hbase+hive +sqoop开发环境：eclipse + mysql + maven+ ssm项目描述：通过大数据技术实现基于浏览器的用户历史记录分析，用于监控互联网企业网络安全和提高员工工作效率。实时监控企业网络安全，对敏感信息进行过滤，控制员工网络访问点和速度；分析员工的工作效率，给出合适的意见。架构图：开发步骤：1.通过 java+sqlite 解析浏览器历史记录文件，把文本...

2020-08-27 16:41:26 396 1

原创 python用 xlwt 输出 xls 文件，报错如下：ValueError: row index was 65536, not allowed by .xls format

解决方法xlrd 和 xlwt 是python中用来处理 xls 文件的函数，其单个 sheet 限制最大行数为65535，因此，当读写数据量超出时就会出现如上错误。如果希望有更大的存储，建议使用 openpyxl 函数，其最大行数为1048576，存储的文件类型为 xlsx 。import openpyxldef writetoxlsx():data = open('./data.txt', 'r')outwb = openpyxl.Workbook()...

2020-08-27 16:32:40 2370

原创多元统计分析

多元统计分析是从经典统计学中发展起来的一个分支，是一种综合分析方法，它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律，很适合农业科学研究的特点。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用。简称多元分析。当总体的分布是多维（多元）概率分布时，处理该总体的数理统计理论和方法。数理统计学中的一个重要的分支学科。 ...

2020-08-27 16:16:32 2384

原创期望值、方差、协方差与相关系数之间的关系

https://www.zhihu.com/question/20852004

2020-08-21 16:50:10 8482

原创用户行为路径分析

引自：http://www.niaogebiji.com/article-19687-1.html 这篇文章是我看过介绍用户行为路径分析，从概念到方法论都很全面的一篇，推荐！用户行为路径分析是一种监测用户流向，从而统计产品使用深度的分析方法。主要根据每位用户在APP或网站中的点击行为日志，分析用户在APP或网站中各个末库的流转规律与特点，挖掘用户的访问或点击模式，进而实现一些特定的业务用途，如APP核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画...

2020-08-21 15:02:14 3261

原创 tableau 中将字符串转换为日期的方式

tableau中默认日期的格式为2020/08/01这样的格式，如果不是这个格式，需要做一些转换后，再用date函数来处理。例如：date字段的值是20200101，left(str([date]),4)+’-’+mid(str([date]),5,2)+’-’+right(str([date]),2)，处理完之后，tableau还是认为他是字符串，所以你要让他为date，就需要再加一个date处理一下，即date（left(str([date]),4)+’-’+mid(str([date]),5,2

2020-08-15 14:11:06 8011

PYTHON实现股价预测（ppt）

用户画像PPT介绍

iceberg相比传统数仓，有哪些异同点？