![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
法相
只有一种英雄主义,就是在认清生活真相之后依然热爱生活
展开
-
图神经网络(GNN)入门之旅(一)-运动与数学
分享本人在知乎专栏图神经网络的文章,觉得不错的同学欢迎点赞收藏哈。https://zhuanlan.zhihu.com/p/342499716原创 2021-03-09 17:51:48 · 192 阅读 · 0 评论 -
pandas透视表常用方法
在实际工作中,一些字段较多的数据,存储时往往以params-values的形式存储。如下所示:test = pd.DataFrame([['a','var1',1],['a','var2',2],['b','var1',1],['b','var2',2]],columns=['id','params','values'])test一个id对应多行。然而在使用数据的过程中,往往希望一个id...原创 2019-05-22 15:02:11 · 2473 阅读 · 0 评论 -
爬虫开发整理
mark一下,感谢作者分享!https://www.cnblogs.com/bep-feijin/p/9067264.htmlhttps://www.cnblogs.com/bep-feijin/p/9067332.htmlhttps://www.cnblogs.com/bep-feijin/p/9088841.htmlhttps://www.cnblogs.com/bep-feijin/...原创 2019-03-03 09:47:22 · 170 阅读 · 0 评论 -
Python/Anaconda多版本共存的解决方案
mark一下,感谢作者分享!https://www.cnblogs.com/meelo/p/6034970.html Python/Anaconda多版本共存的解决方案 博客中的文章均为 meelo 原创,请务必以链接形式注明 本文地址 虽然Python2大势已去,众多项目都已经支持Python3,但总有一些教程和项目只支持Pyt...转载 2018-09-06 19:39:20 · 1360 阅读 · 0 评论 -
光大证券“中文云”项目开源地址
光大“中文云”项目开源地址 为带动国内金融文本研究,光大中文云系统现已开源。7人专业团队, 6年专注研究,2万行代码,爬虫、索引、检索、统计、热度、选股一气呵成。共享地址: https://github.com/dmquant/chinesecloudhttp://image.dajiangzhang.com/djz/attachement/20141124/4bc0a929-5daa-4...原创 2018-08-07 09:31:51 · 945 阅读 · 0 评论 -
集成学习总结&Stacking利器(mlxtend库)
mark一下,感谢作者分享! 集成学习主要分为 bagging, boosting 和 stacking方法。本文主要是介绍stacking方法及其应用。但是在总结之前还是先回顾一下继承学习。这部分主要转自知乎。1. Bagging方法:给定一个大小为n的训练集 D,Bagging算法从中均匀、有放回地选出 m个大小...转载 2018-06-01 10:50:37 · 21621 阅读 · 2 评论 -
python单步调试
python -m pdb *.pybreak 或 b :设置断点continue 或 c:继续执行程序list 或 l:查看当前行的代码段step 或 s:进入函数return 或 r:执行代码直到从当前函数返回exit 或 q:中止并退出next 或 n:执行下一行pp:打印变量的值a:查看全部栈内变量...原创 2018-06-12 09:45:47 · 1334 阅读 · 0 评论 -
pyspark读取csv文件创建DataFrame
mark一下,感谢作者分享!方法一:用pandas辅助from pyspark import SparkContext from pyspark.sql import SQLContext import pandas as pd sc = SparkContext() sqlContext=SQLContext(sc) df=pd.read_csv(r’game-clic...原创 2018-05-23 21:04:44 · 3324 阅读 · 0 评论 -
jupyter notebook配置pyspark
我们通常会在远程服务器部署spark环境,并且安装python和jupyter notebook。之后通本地浏览器连接远程服务器地址,进行本地开发。在安装完上述工具之后,在服务器端输入命令jupyter notebook --allow-root启动notebook服务。本地打开浏览器输入服务器地址,如http://127.0.0.1:8888,8888为配置服务器notebook时的端口。...原创 2018-05-07 16:56:20 · 1875 阅读 · 0 评论 -
LightGBM安装教程
LightGBM安装教程,使用教程原创 2017-12-14 23:24:30 · 45065 阅读 · 5 评论 -
python归一化、标准化、正则化
对特征进行一定的处理,可以提升算法模型的结果,主要分为归一化,标准化,正则化。python的sklearn.preprocessing提供了相应的方法,使用起来非常方便。原创 2017-06-30 20:50:37 · 1761 阅读 · 0 评论 -
python数据导入与转换
在利用机器学习对数据建立模型的过程中,首要的工作就是导入数据。导入数据的方法有很多: 1、基于python本身io; 2、基于numpy.load; 3、pandas。 当然最好用的当然是pandas,下面来简单介绍下pandas导入数据,并在导入过程中进行数据转换。在我们的数据中,前1558列都是数字类型,而最后一列为字符串。我们自定义一个Converter_number函数,将空值转换为np.nan,字符串转换为0和1.原创 2017-06-25 22:47:32 · 1129 阅读 · 0 评论 -
python分割大文件(源码)
假设需要处理大文件,又不想依赖数据库,那么将文件分割也不失为一种解决方案。import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport datetimeimport pymongoimport osdef splitData(): user_pay_path = "..原创 2017-06-20 00:01:17 · 1415 阅读 · 0 评论