![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python学习笔记
文章平均质量分 92
学习笔记666
这个作者很懒,什么都没留下…
展开
-
Python变量、自定义函数
不管你学什么编程语言都逃不出如下套路: 1、怎么定义变量?是否有数据类型,怎么在控制台输出? 2、怎么定义函数?定义类?面向对象的写法是怎样的? 3、如何调用外部类或函数? 4、如何读写文件?网络编程? 5、如何与数据库交互? 6、如何和各种第三方库交互? 7、有什么好用的框架?变量name="jack" #定义变量print(name) #打印变量#也可以单引号name='jac原创 2017-11-11 11:27:26 · 2418 阅读 · 0 评论 -
利用sqlacodegen自动生成ORM实体类
http://blog.csdn.net/github_26672553/article/details/78537605 在前面我们是手动创建了一个名叫Infos.py的文件,然后定义了一个News类,把这个类作为和我们news数据表的映射。from sqlalchemy.ext.declarative import declarative_baseBase = declarative_bas原创 2017-11-16 11:15:51 · 6171 阅读 · 0 评论 -
python多进程入门、分布式进程数据共享
python多进程入门https://docs.python.org/3/library/multiprocessing.html1、先来个简单的# coding: utf-8from multiprocessing import Process# 定义函数def addUser(): print("addUser")if __name__ == "__main__": p1 = P原创 2017-11-22 15:49:51 · 1861 阅读 · 2 评论 -
入手python绘图包:matplotlib,画直线、画抛物线
入手python绘图包:matplotlib官方地址: http://matplotlib.org/ github地址: http://github.com/matplotlib/matplotlib学习一款图形化(可视化)绘图包对我们的数据分析(挖掘)有如虎添翼的作用。1、安装首页cd到你项目的虚拟环境的bin/目录下执行./python3 -m pip install -U matpl原创 2017-12-11 14:10:37 · 82850 阅读 · 0 评论 -
多进程方式抓取基金网站内容
http://blog.csdn.net/github_26672553/article/details/78603539 在前面我们已经简单了解了”python的多进程”,现在我们需要把抓取基金网站(28页)内容写成多进程的方式。因为进程也不是越多越好,我们计划分3个进程执行。意思就是 :把总共要抓取的28页分成三部分。怎么分呢?# 初始ranger = range(1,29)# 步长st原创 2017-11-23 16:25:40 · 402 阅读 · 0 评论 -
抓取基金网站N页JS生成的内容(多页)
回顾http://blog.csdn.net/github_26672553/article/details/78589068 前面我们已经完成了 利用phantomjs和selenium2个包 抓取到了基金网站第二页的html内容。我们后面认为只要循环就可以抓第三页、第四页、。。。。,但其实这有个坑。 看见没有,其实我们只能循环到第五页。 这个就尴尬了!!!!抓取任意页仔细看上图,在获取原创 2017-11-22 14:03:34 · 539 阅读 · 0 评论 -
机器学习入门:入手sklearn框架+线性回归+案例(基金数据的预测)
读取基金数据,然后画线# coding: utf-8import pandas as pdimport matplotlib.pyplot as plt# 读取csv文件里的基金数据fund = pd.read_csv("./csv/001112.csv", dtype={"fcode":str})fund['fdate'] = pd.to_datetime(fund['fdate'])原创 2017-12-13 10:39:35 · 3064 阅读 · 1 评论 -
pandas基础:Series、和NumPy里的random.x()
前面我们已经使用过pandas,简单体会了一下padas的强大之处。 http://blog.csdn.net/github_26672553/article/details/78651523 http://blog.csdn.net/github_26672553/article/details/78676520接下来我们稍微学习一些pandas的基础知识:Series文档地址: http:原创 2017-12-06 14:56:39 · 1361 阅读 · 0 评论 -
基金网站数据入库
1、前面我们已经学过了python和mysql交互,把基金网站的数据插入数据库中。 http://blog.csdn.net/github_26672553/article/details/78530019 并且我们是学习了一个ORM框架sqlalchemy: http://blog.csdn.net/github_26672553/article/details/78537605根据sqla原创 2017-11-27 16:34:50 · 737 阅读 · 0 评论 -
入手pandas分析统计
简单的数据统计和分析前面我们已经完成了基金数据插入到数据表: http://blog.csdn.net/github_26672553/article/details/78646417简单的数据统计和分析,我们可以用SQL直接搞定了。1、查询出NAV前2的数据# coding: utf-8from sqlalchemy import create_engine,descfrom common.c原创 2017-11-28 10:03:57 · 523 阅读 · 0 评论 -
padas数据结构:DataFrame
padas数据结构:DataFrame文档地址: http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframeimport pandas as pduser1 = pd.Series(["jack","男",22], index=["name","sex","age"])user2 = pd.Series(["lily",原创 2017-12-07 11:33:41 · 748 阅读 · 0 评论 -
pandas 索引列、过滤、分组、求和
解析html内容,保存为csv文件http://blog.csdn.net/github_26672553/article/details/78662563 前面我们已经把519961(基金编码)这种基金的历史净值明细表html内容抓取到了本地,现在我们还是需要 解析html,取出相关的值,然后保存为csv文件以便pandas来统计分析。from bs4 import BeautifulSoup原创 2017-11-30 16:13:53 · 6783 阅读 · 0 评论 -
实战:抓取某只基金历史净值数据
http://fund.eastmoney.com/f10/jjjz_519961.html 1、接下来,我们需要动手把这些html抓取下来(这部分知识我们之前已经学过,现在不妨重温)# coding: utf-8from selenium.webdriver.support.ui import WebDriverWaitfrom selenium import webdriverfrom b原创 2017-11-30 14:00:56 · 20969 阅读 · 4 评论 -
利用phantomjs+selenium抓取fund.eastmoney.com/fund.html网站第二页js生成的页面
http://blog.csdn.net/github_26672553/article/details/78550623 前面我们了解过:利用PyExecJS包来执行js,然后直接拿到了基金网站第二页的字典数据。现在和之前的不一样,我们利用phantomjs和selenium这2个包,模拟人工访问第二页,拿到第二页的网页源代码。1、首先来肉眼分析第二页源码的特征。用户点击”第二页”其实就是点击v原创 2017-11-21 09:45:33 · 1088 阅读 · 0 评论 -
从函数参数 引出 元组
自定义函数:特殊参数def show(name="jack", *info): print(name) #jack print(info) #(22, '男')show("jack",22,"男")可以看出22,"男"全部归为了函数的第二个参数*info。 我们可以看到打印这个info参数结果是:小括号包起来的形式。函数的特殊参数升级上面见识了函数参数*xxx这种形式,下面看看2个原创 2017-11-11 11:55:27 · 471 阅读 · 0 评论 -
list类型、range()序列、简单认识 类(class)
list类型定义:items = []这就定义了一个名叫items的list。往里填充数据:items.append(1)items.append(3)items.append(4)print(items) # [1, 3, 4]range序列上面那个list,如果我们要append进去0~9的数字。最好是利用循环。items = []for x in range(0,10): it原创 2017-11-11 13:31:16 · 3566 阅读 · 0 评论 -
可变和不可变、类的私有属性
可变和不可变items = []print(id(list))items.append(2) # items值改变了print(id(list)) # 但内存地址没有变id()函数获取内存地址。a = "jack"print(id(a))b = "jack"print(id(b)) # b内存地址和上面a一样a = "zhangSan"print(id(a)) # a内存地址变了c原创 2017-11-11 14:51:34 · 279 阅读 · 0 评论 -
Python里 模块、Package概念
Python中”模块”的概念在开发中,我们会有很多函数,我们可以把这些函数都放到一个文件。 比如function.py中:#定义函数def show(): print("jack")#定义变量name = "tom"在其他地方要使用其中的函数怎么办呢? 第一步:需要先引入import funtions第二步:通过文件名.函数名/变量名的方式使用funtions.show() # j原创 2017-11-13 16:34:24 · 673 阅读 · 0 评论 -
读取文件、OS模块、异常处理、with as语法
文件读取#读取文件f = open("test.txt","r")print(f.read()) #打印文件内容 #关闭文件f.close()获取文件绝对路径:OS模块os.environ["xxx"] 获取系统环境变量os.getcwd 获取当前python脚本工作路径os.getpid() 获取当前进程IDos.getppid() 获取父进程ID异常#读取文件f = Nonetr原创 2017-11-14 09:22:08 · 311 阅读 · 0 评论 -
Python获取网页内容、使用BeautifulSoup库分析html
利用 urllib包 获取网页内容#引入包from urllib.request import urlopenresponse = urlopen("http://fund.eastmoney.com/fund.html")html = response.read();#这个网页编码是gb2312#print(html.decode("gb2312"))#把html内容保存到一个文件with原创 2017-11-14 13:45:34 · 6087 阅读 · 0 评论 -
Python的虚拟环境、试玩爬虫相关库:Beautiful Soup
虚拟环境在开发中,各个库的使用可能存在兼容性问题。比如我们在使用npm下载包的时候,一般都尽量使用局部安装,而不是安装到全局。 Python也是如此。我们就要用到虚拟环境。cd 到你的项目根目录python3 -m venv abc abc就是我们虚拟环境的目录名称。(表示这个虚拟环境目录名称可以随意)我们以后下载的库都存放在abc/lib/python3.5/site-packages这个目原创 2017-11-13 17:28:55 · 332 阅读 · 0 评论 -
python和mysql交互
python要和mysql交互,我们利用pymysql这个库。 下载地址: https://github.com/PyMySQL/PyMySQL安装(注意cd到我们项目的虚拟环境后):cd 项目根目录/abc/bin/#执行python3 -m pip install pymysql稍等片刻,就会把pymysql库下载到项目虚拟环境abc/lib/python3.5/site-package原创 2017-11-14 15:49:51 · 1767 阅读 · 0 评论 -
python里比较流行的ORM框架:sqlalchemy
安装http://docs.sqlalchemy.org1、安装#进入虚拟环境#执行./python3 -m pip installimport sqlalchemyprint(sqlalchemy.__version__) # 1.1.15我这里使用的版本是1.1.15创建连接对象http://docs.sqlalchemy.org/en/latest/orm/tutorial.html#co原创 2017-11-15 12:00:14 · 10341 阅读 · 0 评论 -
入手爬虫利器:phantomjs+selenium、自动填充文本框、自动点按钮
http://fund.eastmoney.com/fund.html#os_0;isall_0;ft_;pt_1前面我们通过『眼球』的方式,发现要抓取第二页的数据,是一段js脚本生成的。 我们希望能够启动获取到 第二页、第三页的脚本地址是什么?phantomjs好比是一个没有界面的浏览器内核,可以用它来执行脚本。隐形的执行css选择、DOM操作等。官网地址: http://phantomjs.o原创 2017-11-20 16:33:56 · 6715 阅读 · 0 评论 -
pandas在web开发中的使用场景:删除文章的重复评论、统计某个用户的评论数量
id,news_id,user_name,content,create_at1,101,zhangsan,垃圾,2017-12-07 15:44:442,102,lisi,很好,2017-12-07 15:44:443,102,zhangsan,好文章,2017-12-07 15:44:444,103,wangwu,真不错,2017-12-07 15:44:445,104,zhangsan原创 2017-12-07 16:56:38 · 592 阅读 · 0 评论