普通网友-CSDN博客

原创 2020-11-07

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体悉，根据业务需求构建相应的分析模型(不只是机器学习模型)，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。但真正的原始表是混乱且包含了很多无用的冗余特征，所以能够根据原始数据清洗出相对干净的特征表就很重要。前两天在Towards Data Science上看到一篇文章，讲的是用Pandas做数据清洗，作者将常用的清洗逻辑封装成了一个个的清洗函数。https://towardsdatascience.com/

2020-11-07 00:17:44 105

原创 SQL

1 selectselect本质上是通过设置或检查存放fd标志位的数据结构进行下一步处理。这带来缺点：单个进程可监视的fd数量被限制，即能监听端口的数量有限单个进程所能打开的最大连接数有FD_SETSIZE宏定义，其大小是32个整数的大小(在32位的机器上，大小就是3232，同理64位机器上FD_SETSIZE为3264)，当然我们可以对进行修改，然后重新编译内核，但是性能可能会受到影响，这需要进一步的测试一般该数和系统内存关系很大，具体数目可以cat /proc/sys/

2020-11-07 00:16:47 97

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人