读书笔记
墨禾
这个作者很懒,什么都没留下…
展开
-
nlp学习笔记
npl和文本分析的应用领域:搜索引擎,情感分析,主题建模,词性标注,实体识别等。本小结知识是关于如何从文本数据中提取有用的信息#tokenize将一个文本分割成有意思的标记,比如一个文本分割成若干单词或者句子sample_text = "Are you curious about tokenization? Let's see how it works! We need to analy...原创 2018-04-08 21:56:06 · 488 阅读 · 0 评论 -
scrapy框架的用法
#常用命令行scrapy crawl xxxx#开始运行一个爬虫scrapy check #检查爬虫是否有bugscrapy list #返回项目里有哪些爬虫scrapy shell url#返回网页的响应,可以进行交互式操作scrapy view URL #访问网而后,可以查看网页访问结果,可以查看网页是否使用ajax加载#常用选择方法response.xpath('//ti...原创 2018-04-24 19:16:38 · 258 阅读 · 0 评论 -
量化选股
原创 2018-05-08 22:06:03 · 1360 阅读 · 0 评论 -
selenium用法
from selenium import webdriver driver = webdriver.Chrom()#生成谷歌浏览器对象 dirver.get('http://www.taobao.com')#打开淘宝 driver.page_source#获取获得网页的源代码 driver.find_element_by_xpath('xpath语句')#通过xpath查找元素常用...原创 2018-04-23 22:30:58 · 285 阅读 · 0 评论 -
bs4用法
beautfulsoup常用的解析器,html.parser(python)自带,速度适中,lxml解析库,速度库,文档容错能力强,需要安装lxml库,建议用这个 from bs4 import BeautifulSoupimport requestsres = requests.get(url).text###标签的选择方法###soup = BeutifulSoup(res,'...原创 2018-04-23 21:37:48 · 1362 阅读 · 0 评论 -
python如何连接数据库
import pymysqlcon=pymysql.connect(host='localhost', user='root', password='123456', port=3306, database='python')#连接的关键...原创 2018-04-14 09:11:34 · 386 阅读 · 0 评论 -
request库的应用
安装 pip install requestsimport requestsurl = 'http://www.baidu.com'res = requests.get(url)print(res.status_code)#打印请求状态print(res.cookies)#打印cookiesprint(res.text)#打印响应内容字符串print(res.content)#打印...原创 2018-04-23 19:36:03 · 245 阅读 · 0 评论 -
window 7如何安装mongodb
https://www.mongodb.com/download-center#community去下载3.4 community sever 版本的,我安装3.6的安装不上 按照提示,很容易安装在MongoDB下创建data,在data下再创建db:D:\MongoDB\data\db(你自己的安装路径) 因为启动mongodb服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动...原创 2018-04-23 16:25:50 · 126 阅读 · 0 评论 -
分类算法
分类算法的选择 文本分类的时候,最多使用的是贝叶斯算法 训练集很小的时候,可以选择svm,朴素贝叶斯,这类算法效果会比较好 如果是关注的是算法模型计算时间,支持向量机和神经网络不是很好的选择 如果重视模型的精度,那么可以考虑svm,rf 如果要得到模型预测的概率,基于概率做进一步的分析,可以考虑精度不是很高的逻辑斯蒂回归...原创 2018-04-18 21:50:53 · 194 阅读 · 0 评论 -
算法和算法复杂度
算法衡量指标:正确性,可读性,易维护性,运行时间 算法计算时间可以通过复杂度的阶表示:对数阶(log2xlog2x\log_2 x),线性阶(x),多项式阶(x2x2x^2),指数阶(2x2x2^x) 大O表示法,表示在。。。。。阶,线性时间算法的阶为:O(n)#找出一个列表中最小值的索引def index_of_min(shuffle_list): index_min =...原创 2018-04-12 12:02:30 · 293 阅读 · 0 评论 -
回归算法
比较常见的回归算法:线性回归,多项式回归,岭回归,lasso,弹性网络等 回归算法常用的评估标准: R2R2R^2它反映了因变量的变异能通过回归关系被自变量解释的比例。值为1的时候,表示观测点全部落到回归拟合线上 计算公式 R2R2R^2 = 回归平方和/总平方和 回归平方和 = 总平方和 - 残差平方和 ...原创 2018-04-17 22:38:53 · 1571 阅读 · 0 评论 -
百度地图数据获取
import requestsimport jsonbaidu_ak = '你的ak码'#访问百度地图开发平台的AK秘钥url = 'http://api.map.baidu.com/geocoder/v2/?address=%s&output=json&ak=%s'#以json格式返回输出数据,json改成XMLadd='恒大绿洲'#获取百度地图的数据方法...原创 2018-04-11 16:36:17 · 3726 阅读 · 0 评论 -
数据分析采用的方法
1:5w2h:比如如研究用户购买的行为的,可以多问问自己,用户为什么买(why),用户什么时候买(when),用户买了什么商品(what),那些用户买了我们商品(who),那些地区的用户买了我们商品(where),用户用什么方式买的(how),用户买了多少(how much) 2:逻辑树分析法:把一个打问题分成树杈状的小问题一步一步解决。 3:4p营销理论:比如公司业务分析,公司生产什么产品(...原创 2018-03-26 15:50:32 · 263 阅读 · 0 评论 -
数据预处理知识
均值,中位数,众数在各种分布中的位置 数据清理:处理缺失值,光滑噪声数据,识别或者删除离群值,解决不一致的数据。 数据集成:不同数据库中的数据,多个数据源的数据整合到一起,在集成的过程中要考虑数据一致性的问题。比如,同一属性的数据在不同的数据库里,命名不同。 数据规约:包括维规约和数值规约。 维规约:数据压缩,比如主成分分析,小波变换,属性子集选择,属性...原创 2018-03-22 21:31:12 · 431 阅读 · 0 评论 -
excel笔记
countif函数(数据块,if条件),对满足条件的单元块计数 if函数(条件,条件为真的时候值,条件为假的时候值) left函数(text,num_chars)提取文本左边num个字符 right函数与之类似 concatenate(tex1,text2)将几个字符串和平成一个字符串。 vlookup函数(要查找的值,被查找的表格第一列必须为要查找的值,希望匹配值的列序号(相对于被查找表...原创 2018-03-26 21:40:19 · 467 阅读 · 0 评论 -
SQL必知必会
1:select语句Python连接实现import pymysqlcon = pymysql.connect(host='localhost',port=3306,user='root',passwd='123456',db='learning_sql')cursor = con.cursor()cursor.execute('SELECT prod_id,prod_name,pr...原创 2018-03-29 11:17:36 · 394 阅读 · 0 评论 -
xpath,css选择器
/ 从根节点选取 // 从匹配当前节点选择文档中的节点 。选择当前节点 。。选择当前节点的父节点 @选择属性 *匹配任何元素节点 @*匹配任何属性节点 Node()匹配任何类型的节点...原创 2018-04-21 21:47:35 · 213 阅读 · 0 评论