- 博客(2)
- 收藏
- 关注
原创 2020-11-07
日常工作中,分析师会接到一些专项分析的需求,首先会搜索脑中的分析体悉,根据业务需求构建相应的分析模型(不只是机器学习模型),根据模型填充相应维度表,这些维度特征表能够被使用的前提是假设已经清洗干净了。但真正的原始表是混乱且包含了很多无用的冗余特征,所以能够根据原始数据清洗出相对干净的特征表就很重要。前两天在Towards Data Science上看到一篇文章,讲的是用Pandas做数据清洗,作者将常用的清洗逻辑封装成了一个个的清洗函数。https://towardsdatascience.com/
2020-11-07 00:17:44 105
原创 SQL
1 selectselect本质上是通过设置或检查存放fd标志位的数据结构进行下一步处理。这带来缺点:单个进程可监视的fd数量被限制,即能监听端口的数量有限单个进程所能打开的最大连接数有FD_SETSIZE宏定义,其大小是32个整数的大小(在32位的机器上,大小就是3232,同理64位机器上FD_SETSIZE为3264),当然我们可以对进行修改,然后 重新编译内核,但是性能可能会受到影响,这需要进一步的测试一般该数和系统内存关系很大,具体数目可以cat /proc/sys/
2020-11-07 00:16:47 97
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人