python
小帅的私人空间
目标成为大牛,先踏实码代码。
展开
-
11.7KNN
跟着machine learn in action在重复造KNN轮子。有用sklearn实现KNN,还是人家的轮子好用。还学了: - numpy的矩阵用法http://mp.weixin.qq.com/s/FVI3zEp4it-fd99-3MU9vA - Readlines, read, realine等等区别, - 懂原理和写轮子还是很不一样的,工程能力弱鸡一个 - sklearn划分sk原创 2017-11-08 07:56:52 · 165 阅读 · 0 评论 -
2.12yaml踩坑 | python临时文件tempfile踩坑
yaml:配置文本语言,经常拿来和ini,json对比。当然我不是码农,不要写这个,但是最近遇到当时踩了一些坑。于是把这个东西查了一下。下面是一些好的博客。 - 我觉得最大的坑就是string是没有”“引号的。 - python有个包pyYaml - 非常简洁,比json好读(对人来说);类似于xml,比xml语法简单 http://www.ruanyifeng.com/blog/2016原创 2018-02-13 00:39:50 · 728 阅读 · 0 评论 -
2.22python基础(3) 文件操作
python的文件操作用得越来越多了,常常还是想不起来需要搜索。写博客记录一下,也帮助记忆。主要是读写。打开使用try, 关闭finally,捕捉异常except as;或者使用简单的方法with as,可以合并前两个语句,但是无法捕捉异常。 open(), close(),或者 with open() as open(文件路径, 操作),下面操作内容转自http://www.cnblo...原创 2018-02-23 00:23:01 · 208 阅读 · 0 评论 -
rpy2一个bug
pd.concat([s1, s2], ignore_index=True) 注意格式,中括号其实不是这个安装包的bug, 是放到crontab里面之后一直bug。后来发现是环境变量的问题。因为有两个语言环境,虽然都在anaconda里面。最后在crontab最上面加上path, PATH=/Users/shuaige/anaconda3/bin:/usr/local/bin:/usr/bin:/b原创 2018-03-30 04:52:56 · 217 阅读 · 0 评论 -
python三元运算符
为真时结果 if 判断条件为真 else判断条件为假时的结果 x = 5 if y=1 else 6 就是说y=1则x=5,否则x=6原创 2018-05-30 04:35:20 · 791 阅读 · 2 评论 -
python基础: 正则表达式
今天才发现yield真个东西,真是太弱鸡了整理了一下相关资料,记录在下面.python 正则表达式 re 被老铁奚落一通, 所以直面问题,不要逃避了.仔细把文档看了,记录在下面 首先: 有一个在线查看效果和讲解的网站,太棒了https://regexr.com/ 其次: 文档在这里:文档是Python3的 https://docs.python.org/3/howto/regex.h...原创 2018-09-07 08:24:42 · 308 阅读 · 0 评论 -
Python中yield
这个讲解特别好, https://stackoverflow.com/questions/231767/what-does-the-yield-keyword-do, 果然是面向stackflow编程.一句话总结: yield在函数中相当于return, 只不过它return的是generator迭代器, 而不是实际数据迭代器的性质: 只能使用一次, 用完就失效了; 不占内存, 用的时候调用...原创 2018-09-07 08:27:51 · 140 阅读 · 0 评论 -
工具记录:最近学习机器学习加速工具
dask: 一开始是作为并行计算pandas dataframe使用的, 后来发现还很强大, 支持scikit, tpot等机器学习相关. 轻量化, 基于py社区(与之对应的是spark, 虽然有py版本, 但是本质是一个大而全的整个系统)numba:加速数学运算, 尤其原生计算和numpy计算, 特别支持挺多计算函数(random等)petastorm: uber支持的创建dataset的...原创 2019-03-03 08:28:04 · 325 阅读 · 0 评论 -
讲解Joblib: running Python functions as pipeline jobs
https://joblib.readthedocs.io/en/latest/index.html稍微看了一下, 是一个小清新的工具。第一个是cache拒绝重复计算,私心觉得可以通过逻辑来避免,第二个是并行计算,把multiprocessing, multithreading几个backend做了一个整合。还可以帮你自动选择,比之前无脑multiprocessing可能优秀一些。不过在机器学习...原创 2019-04-11 01:23:00 · 331 阅读 · 0 评论 -
【给自己挖坑,翻译Queue】:解释了困扰很久的并发线程的讲解
http://masnun.rocks/2016/10/06/async-python-the-different-forms-of-concurrency/翻译 2019-04-12 13:11:34 · 180 阅读 · 0 评论 -
pandas怎么过滤not in
https://stackoverflow.com/questions/27965295/dropping-rows-from-dataframe-based-on-a-not-in-condition翻译 2019-04-17 07:29:41 · 2757 阅读 · 0 评论 -
1.29pymysql和python踩坑时间格式化
sql_insert_1 = "INSERT INTO traffic_hourly_devices(date, time, mobile_traffic, desktop_traffic) VALUES(%s,%s,%s,%s)"cursor.execute(sql_insert_1, (devices_data.loc[0, 'date'],原创 2018-01-30 05:53:12 · 3137 阅读 · 2 评论 -
1.26crontab
发现shell真的很重要,之前都是再ide练习代码,shell一窍不通。看公司其他人玩的6,而且不会的话也不好交流。让我写一个python连接后台数据,处理之后再存入mysql。最近知道了crontab这个工具,觉得很厉害,可以后台定时跑程序,每小时,或者每天/每周/每月几号的哪个时间点。比起我在python里面呆萌地添加sleep高不会知道哪里去了。啊哈哈。原创 2018-01-28 11:01:48 · 99 阅读 · 0 评论 -
创刊纪: 数据科学家的进阶之路
学Python也有一阵子了,想开个博客记录一下自己的学习之路。最近刚好阿里的达摩院搞得沸沸扬扬,向着大牛的目标前进。原创 2017-10-14 10:50:11 · 266 阅读 · 0 评论 -
10.13
最近用pandas比较多,刚刚又系统地学了一下,对这个大熊猫有了更全面了解,包括创建df和调用。groupby真是好用。原创 2017-10-15 00:23:50 · 188 阅读 · 0 评论 -
11.8烦乱一天
try except else异常处理控制语句http://www.runoob.com/python/python-exceptions.html今天看CNN tensorflow,好难弄,然后被各种事情打断,烦躁的一天。原创 2017-11-09 11:17:58 · 141 阅读 · 0 评论 -
11.12帮女朋友写东西
本来自己在做时间序列的R语言项目。但是女朋友的项目受阻了,于是问问她有什么可以帮忙的。结果pandas,numpy做数据清洗和数据预处理做了一整天。总共七八个小时吧。没有室友的帮忙要更久,幸好室友帮忙debug了几次。希望有朝一日我的码力可以像室友看齐!至少手速要看齐。。。打字太慢了,肯定是代码太少的原因。最近装了ubuntu,像有新玩具一样开心,等寒假把硬盘换了,再装一遍ununtu和window原创 2017-11-14 00:37:32 · 171 阅读 · 0 评论 -
11.14TF-GPU+CNN论文
开心,今天安装tensorflowGPU版本,跑起来很开心。为了CNN最后人脸识别的大作业,最近看了好几篇论文,帮助最大的是CUN老爷子1990那篇和Alexnet那个。因为做的不是许多分类,并没有看凯明大牛残差网络。感觉可以先码代码做东西了,理论差不多了,在时间中学习!!!原创 2017-11-15 14:20:26 · 221 阅读 · 0 评论 -
1.21Python先上船再补票
之前是直接上来就干数据分析,先学pandas,numpy和sklearn做一个快乐的调包侠。现在属于先上船再补票。开始重新系统学习类,函数,线性数据结构等等。相信会集中学习一段时间,比如一个月,达到leetcode的简单题目的难度。原创 2018-01-11 04:28:35 · 192 阅读 · 0 评论 -
1.22selenium+chrome headless爬虫踩坑
第一是按照class name页面搜索时候,class里面不能有空格。有些网站把此作为反爬措施之一,关键信息只有class,里面却又包含空格。做法是用xpath分解。比如 应该换作div[@class=”handdome xiaoshuai”.第二是给足加载网页时间一开始sleep(1),一直报错说找不到我要得element; 找了两三个小时bug都快疯了。出去上了厕所喝了咖啡一下原创 2018-01-23 09:44:46 · 4033 阅读 · 0 评论 -
1.16python基础以及上班第一天
上班第一天,有点不match。硬着头皮学。开始在九章上面上课,python算法基础,不能只会python做DM调包侠,要更深层去写代码。今天讲了类。很有收获。原创 2018-01-17 12:38:11 · 296 阅读 · 0 评论 -
2.2native ads原生广告
学到一个新概念,原生广告,13,14年火起来的。谷歌的定义是:原生广告可承袭发布商网站的格式或基调,旨在营造和谐一致的用户体验。自适应广告可根据具体环境选择图片格式或文字格式。此类广告可自动承袭发布商网站的特征,无需广告客户投入任何额外的精力。https://support.google.com/adwords/answer/7009059?hl=zh-Hans典型的就是微信有过一段时间又放弃的朋友原创 2018-02-03 01:16:47 · 453 阅读 · 0 评论 -
python基础(2) 基础数据类型,以及其他
所有内容来源于 Problem Solving with Algorithms and Data Structures using PythonBy Brad Miller and David Ranum, Luther College http://interactivepython.org/courselib/static/pythonds/index.htmlMethod Na原创 2018-02-03 21:47:33 · 200 阅读 · 0 评论 -
introduction dask
OverviewDASK provides multi-core and distributed parallel execution on larger-than-memory datasets.We can think of Dask at a high and a low levelHigh level collections: DASK provides high-level...原创 2019-07-16 03:44:54 · 265 阅读 · 0 评论