三妹的工作日常
程序媛三妹
VX: cxysanmei1024 同名公众号和知乎:程序媛三妹,请多指教呀
一个希望不断进化的姑娘~
展开
-
工作中遇到的Excel 奇技淫巧
(今天尝试使用csv 格式的数据复制粘贴进来之后还不是文本格式,但 txt 格式 的文档粘贴进来就没问题,之后细研究)。1、长数字即使整列设置为文本格式,也是双击一个单元,变一个单元展示情况。解决方法:在复制进来数据之前,就先设置好此列为文本格式。原创 2024-01-03 19:58:04 · 426 阅读 · 0 评论 -
pandas分批读取CSV并分批处理数据
算法工程师要面对的一大主要矛盾:不够用的服务器内存和巨大的训练集数据量之间的矛盾。如果使用pandas处理CSV数据,会先把整个CSV加载到内存之后再处理,所以如果你的CSV文件巨大(其实也不一定非常大,我的数据集只有4、50个G,可惜当时服务器内存只有60多个G了),就要想其他方法了。我之前都是把CSV文件手动切分成10个小文件,再逐个处理。现在觉着这方法太傻了啊。其实pandas 读取CSV文件的函数 read_csv() 中自带两个参数就可以解决:nrows=skiprows=原创 2022-05-22 10:44:16 · 2587 阅读 · 1 评论 -
Linux kill了我的程序,咋回事呢
三妹终于在睡前跑通了程序,美美去睡觉,想着第二天就可以看到结果,我还真是个节约时间小能手,结果第二天一看服务器,啥结果也没有,log也没写出来,程序就莫名其妙结束了,连个报错都不给我。所以我查了网上的几个方法,如何知道Linux kill了哪些程序。以下为三妹亲测的方法和结果:1、egrep -i 'killed process' /var/log/messages或egrep -i -r 'killed process' /var/log提示 Permission denied原创 2022-05-20 12:05:34 · 566 阅读 · 0 评论 -
几行代码分析TensorFlow训练模型耗时
三妹最近被领导质疑了,他说我模型训练时间太久:你看人家XXX公司,千万级的数量级几个小时就训练好了,你这个快40个小时了,必须得优化,你先看看训练模型时间都花在哪了吧。经过一顿尝试,我要记录一下我觉得最简单高效的方法。目录一、工具二、结果展示三、Show Code四、经验一、工具timeline二、结果展示图片来源:tensorflow性能调优实践 - 简书图片来源:使用TensorFlow训练WDL模型性能问题定位与调优 - 美团技术团队(P..原创 2022-05-17 15:21:57 · 2322 阅读 · 0 评论 -
Mac切换普通conda和miniforge conda命令
Mac M1芯片已经不支持普通的 conda 虚拟环境安装 TensorFlow了,给配置过程加大了好几个复杂度,悲伤。。如果你有安装问题,请移步我另一篇文章。本篇文章是讲终于求爷爷告奶奶安装完成之后,你的 Mac 里有了原来普通的 conda(一般是Inter) 和 Miniforge conda,那么怎么切换它们呢?1、首先,你需要了解你的两个 conda 的存放路径,输入命令:conda info --envs给你们看看我的展示结果:简单解释一下:我有两个 minif原创 2022-05-17 14:44:36 · 2505 阅读 · 0 评论 -
pip/conda install加速方法
一、前提shadowsocks代理二、pippip install --proxy http://user:password@proxyserver:portorpip install --proxy http://127.0.0.1:7890# 上条命令中http根据配置的代理调整三、conda$ export http_proxy=http://username:password@proxy:port$ export https_proxy=https://use原创 2022-05-17 12:23:07 · 626 阅读 · 0 评论 -
Excel如何按行间隔配置背景颜色
三妹看同事发的Excel表格按行间隔的颜色巨好看,而且在数据密密麻麻的时候也给区分行数降低了难度(比如,我现在看的是绿色这一行,那我往后扫很多列的时候不会窜到白色行)。然后我上网找了几个教程,发现他们 Excel 的版本跟我不一样,几乎等于没找到教程,好在我通过蛛丝马迹找到了方法,分享给你们呀。首先,我的 Excel 版本是:下面开始操作:1、首先选中你想要上色的数据,选中条件格式2、新建规则3、点击新建规则后出现下边这个页面:但是,这个时候,我看的教..原创 2022-04-23 21:12:11 · 2045 阅读 · 0 评论 -
Maxcompute修改列名
修改列名及注释修改非分区表或分区表的列名或注释。命令格式 alter table <table_name> change column <old_col_name> <new_col_name> <column_type> comment '<col_comment>'; 参数说明 table_name:必填。需要修改列名以及注释的表名称。 old_col_name:必填。需要修改的列名称。old_col_name必须是已存原创 2022-01-25 16:07:39 · 2730 阅读 · 0 评论 -
Linux tee 命令执行Python脚本不好使
1、啥是 tee 命令?如果你想把运行的内容同时显示在终端和重定向到文本里,那么就可以使用 tee 命令来实现2、遇到问题为啥我执行 Python 脚本的时候就不行呢?首先我确定我的Python脚本没问题,不加 tee 命令的时候也能重定向到文本中,所以我断定是 tee 命令我没用对。3、解决方法加个 -u完整命令如下:python -u example.py | tee > results.txt以上,问题解决~...原创 2022-01-21 15:58:53 · 1567 阅读 · 0 评论 -
Linux Tensorflow安装报错 Cannot uninstall wrapt
安装 Tensorflow 过程中遇到这个问题解决方法:pip install wrapt --ignore-installed再继续安装 TensorFlow 即可原创 2022-01-21 15:50:20 · 1771 阅读 · 0 评论 -
linux 文件夹内容太多,如何显示看不到的上半部分
方法一:显示开始的20行内容ls | head -n 20方法二:ls | more会直接显示一屏,之后按回车键会不断展示新内容,缺点是往下滚动得太慢了。。。方法三:将内容重定向到文本里,例如ls -l > test.txt之后编辑文本看你想要的内容。...原创 2022-01-21 15:47:17 · 4687 阅读 · 0 评论 -
pip 的国内镜像(下载超级快)
pip国内的一些镜像阿里云Simple Index 中国科技大学Simple Index 豆瓣(douban)Simple Index 清华大学Simple Index 中国科学技术大学Simple Index提示:若担心安全问题请使用HTTPS加密源修改源方法:临时使用:Linux Mac Windows 通用命令可以在使用pip的时候在后面加上-i参数,指定pip 源pip install scrapy -i https://pypi.tuna.tsingh...原创 2022-01-21 11:41:15 · 6211 阅读 · 0 评论 -
MaxCompute查看分区表某个分区生成时间
查看分区信息查看某个分区表具体的分区的信息。命令格式 desc <table_name> partition (<pt_spec>); 参数说明 table_name:必填。待查看分区信息的分区表名称。 pt_spec:必填。待查看的分区信息。格式为partition_col1=col1_value1, partition_col2=col2_value1...。对于有多级分区的表,必须指明全部的分区值。 使用示例 --查询分区表sale_detai原创 2022-01-17 20:19:19 · 1216 阅读 · 0 评论 -
conda快速安装graphviz画出决策树
命令:conda install python-graphviz 比之前的方法简单太多:pip install graphviz/ brew install graphviz 安装Graphviz2.38 可行性包 add ...\Graphviz2.38\bin to PATH原创 2022-01-05 20:11:07 · 1043 阅读 · 0 评论 -
清华大学开源软件镜像站链接
pypi | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror原创 2021-10-21 16:10:15 · 575 阅读 · 0 评论 -
git 新建本地分支、远程分支并关联push代码
1、查看本地、远程所有分支git branch -a2、新建本地分支git branch newbranch // 新建本地分支git checkout newbranch // 切换到新建的分支// 合并上述两个命令如下git branch -b newbranch3、新建同名远程分支git push origin newbranch:newbranch //创建了一个远程分支名字叫 newbranch4、关联本地分支、远程分支git push --set原创 2021-10-18 11:38:03 · 878 阅读 · 0 评论 -
如何不使用 ndarray 默认的科学计数法格式
在程序的开头加上两句话:import numpy as npnp.set_printoptions(suppress=True)原创 2021-10-18 11:01:12 · 845 阅读 · 0 评论 -
配置服务器:Linux 使用 conda 我所遇到的所有坑
熟悉三妹的小伙伴可能知道,三妹最近跳槽到了互联网,成为了 BAT 中的一个小小程序媛,因此 Mac 呀、服务器呀都是新的,如同一张白纸要被我配置成我喜欢的样子。坦白说,我是相当不喜欢配置服务器环境的,坑太多。但是,作为21世纪新时代程序媛,天不怕地不怕,坚决不能被 bug 打倒。服务器基本上都是一个套路,大家共用一个服务器,但是每个人都有自己的路径,只能在有权限的路径下为所欲为,当然了,配置的东西也只限于自己用。所以,本文记录了我配置服务器过程中,遇到的所有坑以及我如何最终填上坑的。原创 2021-10-21 15:50:28 · 7056 阅读 · 3 评论 -
如何在Mac Finder中查找/Usr 路径?
一、问题不知道你们是否和我一样,有时候需要查找 /Usr 路径下的文件夹,但是直接在 Finder 中找不到这个路径,咋办呢?二、解决方法其实这是因为 /Usr 路径被隐藏了,只需要一句命令即可解决:在Finder 中点击快捷键 Cmd+Shift+G在弹出的目录中填写/Usr/bin 就可以了。Mac的这个bin目录,是一个已经包含在环境变量里的目录,程序放在里面或者链接到里面就可以在终端里直接执行。以上,问题解决...原创 2021-09-28 11:55:49 · 4332 阅读 · 0 评论 -
pandas读excel类型文件报错: xlrd.biffh.XLRDError: Excel xlsx file; not supported
一、问题pandas 读取 Excel 文件(.xlsx)时报错如下:raise XLRDError(FILE_FORMAT_DESCRIPTIONS[file_format]+'; not supported')xlrd.biffh.XLRDError: Excel xlsx file; not supported二、报错原因xlrd 版本过低,只支持读取 .xls 文件三、解决方案1、方法一先卸载低版本的 xlrd,然后安装新版本:pip uninstall xlr.原创 2021-09-27 19:33:15 · 7813 阅读 · 0 评论 -
2021 程序媛跳槽记:百度阿里字节等各大厂面经篇
跳槽系列文章:程序媛三妹:2021 程序媛跳槽记:必刷LeetCode算法题(附解题报告)程序媛三妹:2021 程序媛跳槽记:学习计划篇(已收获字节等offer)三妹我粗略地算了一下,前前后后面试差不多两个月,总共将近 30 场面试吧,挑点典型的面试题记下来。公司目录: 中国人寿 美图秀秀 MOKA 美团 贝壳 小马智行 阿里 字节 百度 一、中国人寿一面:1、项目相关1)用原创 2021-09-24 21:36:29 · 511 阅读 · 0 评论 -
如何关闭Word自带的首个字母大写功能
三妹的 Word 版本是:该版本自动打开了句首字母大写功能,但是我因为要记录一些代码相关的东西,根本不需要自动大写,大写之后反而不是我的代码了,所以急需把它关掉。步骤如下:1、找到菜单栏中的 ”工具“,里面有自动更正选项。2、自动更正中第三行 :“句首字母大写”,前面的对号取消掉。以上,问题解决~...原创 2021-09-16 17:22:50 · 4140 阅读 · 0 评论 -
微软招人啦
虽然三妹本人很菜,可是小伙伴们都很强,最近有个微软的小伙伴希望三妹帮忙发个他们的招聘信息,你们知道的,我这么慷慨热心的人,怎会拒绝呢?所以不管你是校招还是想换工作的社招同学,如果你厌倦了内卷 996,想要一个 work life balance 是生活;又或者你对外企也有一份执念想亲自体验,统统看过来啦。以下是正式内容哦:微软 Azure Machine Learning 团队开始招聘啦。我们团队主要负责 Azure 机器学习平台的建设和维护,涵盖了前端、后端开发到深度学习框架、分布式存储、原创 2021-08-29 19:46:33 · 264 阅读 · 0 评论 -
2021 程序媛跳槽记:学习计划篇
坦白说,我这个人不算聪明,基础也不咋样,这次跳槽我一开始是很没信心的,甚至想把这次尝试当做试水,如果受打击太多,就再修炼半年,明年过完年参加金三银四的跳槽旺季。好在幸运了拿到了几个大厂的 offer ,比如美团啊,字节啊,阿里啊等等,所以我觉得像我这样的菜鸡都能做到,那大家也可以。我把这次跳槽计划命名为:牛宝宝计划。一、战略方针有的人适合突击战,有得人适合持久战,我属于后者。我自认为自己的耐力还可以,所以我一开始就告诉自己:我的基础薄弱,也没有大厂经历,这次跳槽不要急于求成,找到自己的问题抓原创 2021-08-07 22:52:12 · 2146 阅读 · 7 评论 -
2021 程序媛跳槽记:必刷LeetCode算法题(附解题报告)
废话少说,分享我近期为了跳槽刷的题目和解题报告,有些真的是面试原题(感谢上天赐予我的幸运),有些是面试时考到的我没答太好后来补上的,希望刷此题的人都能 offer 多多啦~P.S. 这是我跳槽记系列的第一篇,后续还会有我的真实面经、学习计划以及踩坑经历,互联网人就是这样互帮互助~以下是正经分享:我自己整理的是相当费劲,我决定之后每次跳槽都要照着这个笔记刷一遍。。。虽然我只刷了 七、八十道题,但我真的是反复刷,因为忘得也确实太快了,给原创 2021-08-07 22:47:42 · 383 阅读 · 2 评论 -
在线绘图网站文图使用教程
之前三妹推荐过五个好用的工具(传送门:),其中提到了文图,它支持在线绘图,只要把数据复制粘贴过去,就能得到几乎所有常见的类型图。本篇就是文图的使用教程。四、特殊情况处理如果你指定了列名,却没有传数据,文图也会把正常的列画图,未输入的数据列也会用灰色提示:上图中我用黄色框出来的部分表示我有三列指定了列名却没传数据,分别用方框、三角、菱形表示每个数据点。...原创 2021-05-12 21:15:01 · 2999 阅读 · 0 评论 -
Mac免密登录服务器下载文件+Mac设置定时任务
一、需求三妹我想在本机(Mac)上设置个定时任务,为什么不在服务器上设置呢,因为有好多用于分析的 Python 包服务器上没有,而我还没有服务器的装包权限,总之我觉得配置两块定时:一部分在服务器上读取 hive 表生成 CSV 文件,一部分在本机,每天去服务器拉取数据。二、问题拆解1、免密登录服务器既然是想要设置定时任务来完成每天去服务器读取数据,肯定不是我人工每天到时间了去输入密码才能下载数据吧。所以第一步要解决的问题就是免密登录服务器。所谓的免密登录,就是要让服务器信任你的机器,原创 2021-02-26 10:27:34 · 618 阅读 · 0 评论 -
阿米洛 varlimo 机械键盘 cmd (win) 键锁定
官方解决方法:https://cn.varmilo.com/keyboardproscenium/question原创 2021-01-20 20:04:51 · 13987 阅读 · 1 评论 -
Mac iterm2快捷登录\免密登录服务器
目录一、需求二、步骤一、需求如果你跟我一样,也觉得每次手动输入 ssh username@服务器ip,再输入密码很麻烦的话,希望本文能帮到你。我自己实践之前也在网上查了很多教程,发现还是有一些坑,就一起记录下来。二、步骤1、安装 expect(注意不是 except),用于后续 iterm2login.sh 脚本中,命令如下:brew install expect2、写 iterm2login.sh 脚本我看好多教程都写了脚本内容,但没说存在什么位置,我是存在了 /原创 2020-12-23 13:38:42 · 1640 阅读 · 0 评论 -
yarn 导出日志报错Exception in thread “main“ org.apache.hadoop.yarn.exceptions.ApplicationNotFoundException
目录一、报错二、错误命令三、正确命令四、补充一、报错Exception in thread "main" org.apache.hadoop.yarn.exceptions.ApplicationNotFoundException: The entity for application application_1594112477060_13133 doesn't exist in the timeline store二、错误命令yarn logs -applicationI原创 2020-12-15 20:42:17 · 2425 阅读 · 0 评论 -
分享五个工作中可用的网站
1、ALL TO ALL支持各种文档格式转换https://www.alltoall.net/2、极简简历有很多在线模板,拖拉调节间距等功能。https://www.polebrief.com/edit3、PPT 超级市场http://ppt.sotary.com/web/wxapp/index.htmlhttps://mp.weixin.qq.com/s?__biz=MzIzMjY0NTI1MQ==&mid=2247485869&idx=..原创 2020-12-09 14:42:23 · 801 阅读 · 0 评论 -
Oracle 数据库删除某一行数据
SQL 代码:delete from table_namewhere ...from 后面接表名where 后面接要删除的那行数据的字段特征。注意字段要能保证能唯一删除这一条。原创 2020-12-08 11:29:15 · 21432 阅读 · 0 评论 -
VSCode 快速跳到某一行
快捷键:Ctrl G此时会跳出一个输入框,在冒号后边填写你想跳到的行数即可。输入框样式如下:原创 2020-11-19 14:34:09 · 4961 阅读 · 3 评论 -
VSCode 快捷键转到上次编辑位置
快捷键:按住 cmd 建,之后点击字母 k 和 字母 q,不用大写字母 k 和 q(即 不用按住 shift 键)原创 2020-10-28 18:43:03 · 4415 阅读 · 3 评论 -
VSCode 设置代码自动保存
1、VSCode 界面左下角点击设置:2、搜索框内输入 auto save3、看到第一个即是我们需要的功能,VSCode 有几个不同的设置方式:1)默认设置 off ,不自动保存:2)afterDelay —— 将在配置的 "#files.autoSaveDelay#" 后自动保存为保存的编辑器:3)onFocusChange ——当编辑器失去焦点时,将自动保存为保存的编辑器(可理解为鼠标不在 VSCode 里时):4)onWind...原创 2020-10-27 14:43:36 · 32414 阅读 · 0 评论 -
Scala 运行代码报错: error: object redisson is not a member of package org
最近开始学习 Scala,对于我不熟悉的语言写起代码来真是不顺手,今天又犯了个特别二的错误,分享出来。我在执行代码的时候报了一排错误,类似于:error: object redisson is not a member of package org凡是我引的包全都说不存在。在网上查了半天有说要重新 build 的,有说要重新装 dependency 的包的。最后所有办法都尝试了之后,无奈去问组里大哥。然后他默默的把我的 main 函数中加上了args:Array[String.原创 2020-10-21 14:29:20 · 2060 阅读 · 0 评论 -
Mac 修改 hosts 文件
一、命令终端执行:sudo vim /etc/hosts二、效果执行命令后会让输入本机密码:输入密码后就会显示 hosts 文件内容:原创 2020-10-21 10:03:27 · 328 阅读 · 2 评论 -
oh my zsh 升级命令
upgrade_oh_my_zsh或:omz update更新成功界面,如图:原创 2020-10-18 20:42:08 · 23519 阅读 · 0 评论 -
IntelliJ 中文版
一、问题有没有汉化版的 IntelliJ ?二、解答其实 2020.1 月版本的 IntelliJ 就支持中文了,只要下个插件即可。如图:以上,问题解决~原创 2020-10-18 16:44:54 · 275 阅读 · 0 评论 -
IntelliJ IDEA 查找和替换操作
Table of Contents一、查找二、替换一、查找1、查找当前文件: Ctrl + F2、查找全局文件: Ctrl + Shift + F二、替换1、替换当前文件: Ctrl + R2、替换全局文件: Ctrl + Shift + R原创 2020-09-25 15:47:02 · 8538 阅读 · 4 评论