- 博客(14)
- 收藏
- 关注
原创 爬取同花顺HS300成分股的预测收益及增长率
import requestsfrom bs4 import BeautifulSoupimport reimport jsonimport numpy as npimport timeimport tushare as tsimport pandas as pddf1 = ts.get_hs300s()#print(df)ss=df1.head(10)code = ss....
2019-04-26 14:41:43 1201 3
原创 pandas_datareader.data 获取雅虎财经股票数据并以csv格式存放
pandas_datareader.data 获取雅虎财经股票数据并以csv格式存放import numpy as npimport pandas as pdimport pandas_datareader.data as webimport datetime'''pd.read_csv test'''df_csvsave = web.DataReader("600018.SS",...
2019-03-14 23:02:08 4851 4
原创 量化交易-获取5日,10日,20日均线数据
#获取5日,10日,20日均线数据import tushare as tsimport talibfrom matplotlib import pyplot as plt#通过tushare获取股票信息df=ts.get_k_data('601888',start='2018-01-30',end='2018-10-30') #以股票代码[601888]中国国旅为例,提取从2018-...
2018-11-06 14:34:48 9445 1
原创 selenium自动翻页抓取保监会数据
一、背景:在抓取保监会官网产品检索页面下的所属公司,产品名称,备案日期,险种时,页面较多需要翻页抓取,经分析,在点击下一页,网页的url没有任何变化,只是用js去加载了新的数据,然后动态地改变了table里面的数据。这可和本菜以前爬的页面可不一样,所以这次要想办法模拟翻页,然后重新读取新的html代码,再去解析。实现翻页可以有两种办法,第一种是分析js的实现来模拟翻页。翻页操作实际上js向后台...
2018-11-02 12:22:25 3054 1
原创 Python3 基本数据类型
数字(Number)类型python中数字有四种类型:整数、布尔型、浮点数和复数。int (整数), 如 1, 只有一种整数类型 int,表示为长整型,没有 python2 中的 Long。bool (布尔), 如 True。float (浮点数), 如 1.23、3E-2complex (复数), 如 1 + 2j、 1.1 + 2.2jPython3 支持 int、float、bo...
2018-10-27 16:45:13 187
原创 用Python爬取猫眼电影排行榜TOP100
用Python爬取猫眼电影排行榜TOP100参考资料《Python3网络爬虫开发实践》,作者崔庆才这篇博客参考了崔庆才的《Python3网络爬虫开发实践》有关部分,记录了爬取猫眼电影网排名前100的电影信息的过程。主要步骤有:访问网站,获取页面源码解析页面,得到想要的数据循环爬取多个页面把数据写入本地文件1. 分析需要爬取的页面结构访问猫眼电影。观察页面,会看到首页上有排名...
2018-10-07 15:38:15 2841 3
原创 Python3学习的实用教程 (持续更新)
廖雪峰的官方网站:https://www.liaoxuefeng.com/Python3网络爬虫开发实战教程:https://cuiqingcai.com/5052.htmlpython官方指南:https://www.python.org/about/gettingstarted/关于python3正则表达式:https://www.cnblogs.com/...
2018-08-29 11:26:12 993 1
转载 做量化你需要知道的那些术语!(持续更新)
**金融相关: 股票:股份公司发行的所有权凭证。 债券:承诺按一定利率支付利息并按约定条件偿还本金的债权债务凭证,风险较低。 固定收益:固定收益类投资指投资于银行定期存款、协议存款、国债、金融债、企业债、可转换债券、债券型基金等固定收益类资产。风险低。 利率互换:利率互换是指两笔货币相同、债务额相同(本金相同)、期限相同的资金,但交易双方分别以固定利率和浮动利率借款,为了降低资金成本和利率...
2018-08-23 16:50:38 5068
原创 MySQL统计某列各字段的数量及某列中各字段占所有类型的百分比
SELECT SYSTEM,a.cnt,CONCAT(ROUND(a.cnt/b.sum *100,2),'','%')FROM (select SYSTEM, count(SYSTEM) AS cnt from nginx_log_resource GROUP BY SYSTEM ORDER BY cnt DESC )AS a,(SELECT COU...
2018-08-22 16:57:59 13928 2
原创 分别使用urllib和requests获取网页html.py
#使用urllib库获取html内容from urllib import requesturl = ''html = request.urlopen(url).read()html.decode()#使用requests获取html内容import requestsurl = ''r = requests.get(url)#乱码转换成二进制码再解码成字符串形式html = r...
2018-08-16 11:35:51 4083
原创 jupyter notebook下 采集标题和文本并存入txt文档.py
######jupyter notebook下采集苏轼的一首词import requestsfrom bs4 import BeautifulSoupimport reimport osimport pandas as pdurl = 'http://www.shicimingju.com/chaxun/list/3710.html'r = requests.get(url)h...
2018-08-14 10:59:30 4677
原创 利用正则爬取东方财富网股吧评论.py
###正则爬取东方财富网股吧评论import requestsimport refrom bs4 import BeautifulSoupurl = 'http://guba.eastmoney.com/list,002769.html'res = requests.get(url) #默认是UTF-8html = res.textsoup = BeautifulSoup(html...
2018-08-14 10:56:23 4162 1
原创 爬取新浪网新闻标题日期网址.py
import requests from bs4 import BeautifulSoup url =’http://news.sina.com.cn/china/’ res = requests.get(url) res.encoding = ‘utf-8’ soup = BeautifulSoup(res.text,’html.parser’) for news in soup.s...
2018-08-10 12:37:17 577
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人