进阶三方库 进阶三方库JiebaJieba函数作用备注jieba.lcut(seg_str)精简模式,返回一个列表类型的结果试图将句子最精确地切开,适合文本分析jieba.lcut(seg_str, cut_all=True)))全模式,使用 ‘cut_all=True’ 指定句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义jieba.lcut_for_search(seg_str)))搜索引擎模式在精确模式的基础上,对长词再次切分,提高召回率,适合
PyMySQL # 定义返回函数def get_df_from_mysql(sql): import pymysql conn = pymysql.connect( host="17......", port=3306, user="user", passwd="passwd", db="db_name", charset='utf8' ) df = pd.read_sql(sql,conn)
统计学常用库 统计学常用库1. Scipy1.1 Scipy.stats常见分布常用函数1. ScipyScipy是一个用于数学、科学、工程领域的常用软件包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。模块名应用领域scipy.cluster向量计算/Kmeansscipy.constants物理和数学常量scipy.fftpack傅立叶变换scipy.integrate积分程序scipy.interpolate插值scip
常用可视化库 常用可视化库1. Matplotlib1.1 matplotlib库1.1.1 绘图1.1.2 图像、文字设置1.1.3 图像IO1.1.4 Axes轴面设置1.1.5 Figure对象设置1.2 plt.plot()属性设置图像风格和样式1.3 plt.rcParams1.4 常用实参字符标记字符线型字符颜色字符1.5 pie()属性2. Pyecharts2.1 Pyecharts库2.1.1 导入2.1.2 常用图表2.1.3 其他图表2.1.4 图像设置及渲染2.1.5 Pyecharts.Opti
Python机器学习基础教程 Python机器学习基础教程1. 引言1.1 机器学习能够解决的问题1.3 scikit-learn1.4 必要的库和工具1.4.3 Scipy1.4.4 matplotlib1.4.6 mglearn1.7 第一个应用:鸢尾花分类1.7.1 初识数据1.7.2 衡量模型是否成功:训练数据与测试数据1.7.3 要事第一:观察数据1.7.4 构建第一个模型:k近邻算法1.7.5 做出预测1.7.6 评估模型2. 监督学习1. 引言监督学习(supervised learning)的方法中,用户将成对的输入
BI面试题 tableau有哪些产品桌面分析工具——tableau desktop数据清洗工具——tableau prep分析发布用的——tableau server/online个人试用的精简版数据分析工具——tableau publictableau连接数据有哪两种方式实时:直接从数据源实时查询获取数据信息,Tableau不对源数据进行存储。数据提取:将数据源的数据保存到本地计算机,大幅缩短Tableau查询载入源数据的时间。tableau文件的保存方式.twb ——工作簿未打包数据本身.twb
Scrapy框架 & XPath Scrapy Shell指令功能scrapy shell -s USER_AGENT=“Mozilla/5.0” URL地址基本URL请求scrapy shell --pdb URL地址交互式调试scrapy startproject 项目名称创建Scrapy项目Ctrl+D退出Scrapy ShellResponse指令功能response.body响应体内容response.xpath(xpath路径)根据xpath
《精通Python爬虫框架Scrapy》 精通Python爬虫框架Scrapy1. 简介(略)2. 理解HTML和XPath2.1 HTML、DOM树表示以及XPath2.1.1 URL2.1.2 HTML文档1. 简介(略)2. 理解HTML和XPath2.1 HTML、DOM树表示以及XPath2.1.1 URL如下图,URL分为两个部分:DNS(域名系统)定位到服务器使服务器理解具体的请求(此处为约翰肯尼迪的百度百科网页)2.1.2 HTML文档服务器读取URL请求后,大多时候会回应一个HTML文档浏览器使用Ctrl