2017年11月_哈哈哈哈士奇VIP

原创 pyhon实现决策树（ID3）算法进行数据的分类预测

本文参考了这篇博客和这篇博客还有这篇十分感谢说明：由于平时接触到的数据既有离散值也有连续值所以该算法直接针对两种类型的数据都做了处理，另外划分属性采用的是熵最大原则，决策树实现时很容易过拟合所以需要进行剪枝处理（此处未进行剪枝）关于ID3算法进行分类预测的原理可以参考这篇博客，不再赘述主要写一下具体实现我用的是老师给的数据全都是连续型数据，.xl

2017-11-12 21:00:48 1411 1

原创 python开发数据库之（python DB API）

背景：没有python DB API之前接口程序十分混乱！什么意思呢？也就是说一边是我们的python应用程序（包括一些SQL语句对数据库中的操作进行一遍又一遍的查询，另一边是我们的应用系统可以选用的数据库比如MySQL，sqlserver oracle 等一些）老板突然来新任务了嘤嘤嘤~~~~~~~~~~~先写到这~~~~~~~~http://www.imooc.

2017-11-09 09:24:36 988

原创 python开发数据库之前言

要接手一个师兄的任务，数据库的开发目前打算用python进行开发所以先学习一下python开发数据库的相关内容就当记下笔记了我在https://www.bilibili.com/video/av13502917/?from=search&seid=8159841549747708837#page=1上看的慕课上乒乓球鸡蛋应该是原创课程目标：能够开发完整的数据库操作程

2017-11-09 09:13:47 185

原创 pyhton爬虫笔记之实战爬取淘宝商品价格和名称

# -*- coding: utf-8 -*-"""Created on Wed Nov 8 18:33:38 2017@author: xuanxuan"""import requestsimport redef getHTMLText(url): try: r=requests.get(url) r.raise_for_status(

2017-11-08 17:43:56 2273 2

原创 python网络爬虫学习笔记之实力爬虫（

淘宝商品比价定向爬虫插播一句过几天就是双十一了，emmmmmmmm又要剁手了四不四-------------------------------------------------------------------------------------------好了言归正传，正经分割线---------------------------------------------

2017-11-06 20:27:51 730 1

原创 python网络爬虫之正则表达式（续）

RE库的match对象我们知道正则表达式库的search match 方法调用之后它会返回一个match对象，match对象就是一次匹配的结果它包含了很多匹配的相关信息import rematch=re.search(r'[1-9]\d{5}','xuanxuan387249')if match: print(match)我们可以

2017-11-06 17:18:40 246

原创 python网络爬虫学习笔记之之正则表达式

正则表达式简述1.表达很多字符串可以直接使用一个正则表达式2.表达无穷多个字符串时比如 PY+就表示P后边跟一个Y或者无穷多个Y时的情况 3.比如一组字符串有某种特点，很难将它们枚举出来就可以使用正则表达式来进行比如说一组字符串需要以'PY'开头后续存在不多于10个字符串，后续字符串不得出现‘P’或者‘Y’ 当然你可以把所有的情况枚举出来但是太繁琐

2017-11-05 19:06:46 297

原创 pyhton网络爬虫之实例爬虫

实力爬中国大学排名有人的地方就有江湖，有大学的地方就有排名我们要写一个程序它能通过这个链接爬取大学排名，并能将大学排名屏幕输出也就是说输入：url链接输出：排名大学名称总分技术路线：用到requests库和bs4库定向爬虫：仅对所给的url进行爬取，而不进行扩展，爬取其他的url链接程序的结构设计：1.从网络上获取大学排名的网页内容----------

2017-11-04 22:13:45 614

原创 python网络爬虫笔记之信息提取

信息组织与提取一、信息标记HTML: 通过预定义的标签形式来组织不同类型的信息信息标记的种类有三种 Xml,JSON,YAMLXml: 扩展标记语言，与html格式很像通过标签形式来构造所有的信息，如果标签中有内容时我们用一对标签来表达： ... 如果标签中没有内容时，我们用一对尖括号来表达

2017-11-04 11:03:56 513

原创 python 网络爬虫学习笔记之beautifulsoup

环境: pyhton3一.基础知识beautiful soup能够对你提供给它的任何格式进行相关的爬取并且进行树形解析，是一个非常优秀的第三方库，它能够对html sml格式进行解析，并且提取其中的相关信息;首先要安装beautifulsoup 在cmd命令行输入 pip install beautifulsoup4 (如果安装的是Anaconda 好像就已经安装了，如果想安装其

2017-11-03 19:31:23 434

柠檬黄先生的博客