欢迎进入明天依旧可好的博客目录(全站式导航)

机器学习系列 机器学习100天 机器学习第1天:数据预处理 机器学习第2天:简单线性回归模型 机器学习第3天:多元线性回归 机器学习第4天:线性回归及梯度下降 机器学习第5天:逻辑回归 机器学习第6天:数据可视化神器–Matplotlib 机器学习第7天:深入了解逻辑...

2019-02-02 15:09:38

阅读数 84

评论数 0

selenium教程

环境: Python3.6.5 编译器: Sublime Text 3 代码: GitHub 联系方式: ke.zb@qq.com 第三方库: selenium 文章目录一、简介二、安装三、 一、简介 我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进...

2019-01-22 16:22:09

阅读数 114

评论数 4

CSDN年度博客之星评选,欢迎您为我投上一票,博友们的支持是对我最大的鼓励!

CSDN年度博客之星评选:https://bss.csdn.net/m/topic/blog_star2018 欢迎你为我投上一票,博友们的支持是对我最大的鼓励!

2018-12-29 19:50:13

阅读数 69

评论数 0

python 正则表达式

在很长的一段时间内自己对正则的把握都是需要什么去学什么,后来发现特烦索性今天就把正则表达式的内容都系统的整理归纳一下。 简单的我就不啰嗦了,直接上干货! 文章目录1. 函数1.1. match()函数2. 其他函数2.1. group()与groups()函数2.2. start()函数2.3 1...

2018-12-10 17:47:46

阅读数 18724

评论数 5

pandas库简单入门

文章目录1 利用pandas包读取CSV文件2 利用pandas包写CSV文件3 修改DataFrame中的某一元素4 删除DataFrame中某一行5 遍历DataFrame数据类型6 合并DataFrame数据类型6.1 相同字段的表首尾相接6.2 横向表拼接(行对齐)7 查找DataFram...

2018-12-03 10:53:59

阅读数 18686

评论数 0

Python学习中的点点滴滴

文章目录1. pandas1.1 利用pandas包读取CSV文件1.2 利用pandas包写CSV文件1.3 修改DataFrame中的某一元素1.4 遍历DataFrame数据类型2. 正则表达式2.1 匹配中文并返回匹配对象 1. pandas 1.1 利用pandas包读取CSV文件 ...

2018-11-24 17:15:34

阅读数 16046

评论数 3

实战项目二:实现CSDN自动点赞

环境: Python3.6.5 编译器: Sublime Text 3 代码: GitHub 联系方式: ke.zb@qq.com 第三方库: selenium 写在前面:本文仅供参考学习,请勿用作它途。 文章目录一、思路二、代码实现(一)导入第三方库(二)登录账号(三)保存cookies到文件...

2018-11-04 17:15:38

阅读数 20657

评论数 2

机器学习第8天:IPyhon与Jupyter notebook

文章目录一、IPython是什么二、IPython的安装三、IPython功能介绍(一)用符号?获取文档 一、IPython是什么 ipython是一个python的交互式shell,比默认的python shell好用得多,支持变量自动补全,自动缩进,支持bash shell命令,内置了许多...

2018-10-15 16:47:28

阅读数 29730

评论数 4

实战项目三:爬取QQ群中的人员信息

文章目录一、selenium简介(一)实例说明(二)元素定位方式(三)实现滚动条自动下拉二、Xpath简介三、模拟登陆 一、selenium简介 我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进行模拟登陆。 (一)实例说明 from selenium ...

2018-10-12 22:24:55

阅读数 20516

评论数 0

机器学习第5天:逻辑回归

文章目录一、环境二、具体实现步骤第1步:数据预处理导入库导入数据将数据集分成训练集和测试集第2步:逻辑回归模型第3步:预测结果第4步:评估预测结果生成混淆矩阵混淆矩阵可视化三、可视化结果展示四、逻辑回归是什么五、知识点详解1. 关于可视化 一、环境 Python3.6.5 编译器:jup...

2018-09-25 13:40:01

阅读数 31244

评论数 2

机器学习第3天:多元线性回归

文章目录一、具体实现步骤第1步:数据预处理导入库导入数据集将类别数据数字化躲避虚拟变量陷阱拆分数据集为训练集和测试集第2步: 在训练集上训练多元线性回归模型第3步:在测试集上预测结果第4步:数据可视化二、知识点详解1. 关于多元线性回归 一、具体实现步骤 第1步:数据预处理 导入库 import ...

2018-09-21 08:10:19

阅读数 25438

评论数 2

机器学习第2天:简单线性回归模型

数据学习第一天:数据预处理 文章目录一、具体实现步骤第1步:数据预处理第2步:使用简单线性回归模型来训练训练集第3步:预测结果第4步:可视化训练集结果可视化测试集结果可视化二、可视化结果展示训练集结果可视化结果测试集结果可视化结果三、知识点详解1. 关于LinearRegression()2. 关...

2018-09-19 11:35:30

阅读数 28111

评论数 1

知识点讲解五:处理js异步加载问题

前言 在新闻网站中大多采用的是异步加载模式,新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据,只有当我们向下滚动时,网页的源代码才会同步更新。例如:腾讯新闻,处理这类JS异步加载的问题,这里用selenium来解决。 环境 Python 3.6....

2018-09-17 21:55:06

阅读数 20933

评论数 2

实战项目五:抓取简书文章信息

源码: from fake_useragent import UserAgent from lxml import etree import lxml,requests url="https://www.jianshu.com/c/qqfxgN?ut...

2019-02-09 16:36:34

阅读数 48

评论数 0

知识点讲解六:fake-useragent的用法

UserAgent是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬取网站数据时,频繁更换UserAgent可以避免触发相应的反爬机制。fake-useragent对频繁更换UserAgent提供了很好的支持,可谓防反扒利器。下面将接受fake-useragent的安装到使用。 安装 在...

2019-02-02 17:49:30

阅读数 32

评论数 0

实战项目四:爬取911网站

这是我在英文取名项目中写的一份爬虫代码,今天将它整理一下分享给大家

2019-02-02 17:16:40

阅读数 44

评论数 0

实战项目一:爬取西刺代理(获取代理IP)

爬虫的学习就是与反扒措施、反扒系统做斗争的一个过程,而使用代理IP是我们重要的防反扒的重要措施,代理IP的来源有两种一是你花钱去购买商家会给你提供一个接口你直接调用就可以了,二是自己在网上爬取高效IP。在这篇博客中我重点给大家讲一下如何从网上获取高效IP,我们下面的IP来源于西刺代理,这是我很久之...

2019-02-02 16:29:08

阅读数 58

评论数 0

知识点讲解三:获取重定位后的网址

import requests req = req.requests.get(url) #下面是重定位后的网址 req.url 需要注意的是要确定网址是否有反扒措施,如果有需要针对其采取措施,否则则不会成功获取重定位后的网址 ...

2019-01-28 20:19:23

阅读数 24

评论数 0

一、简谈Pandas

最近在写一本和pandas相关的书,在博客上记录一下自己的创作过程 写书的缘由是,前一段时间自己在做人名音译的项目学习性研究,发现网上在pandas这一块中文文档还是是比较欠缺,大多都是对其中部分知识的讲解,缺乏系统性的介绍讲解,这对许多新人甚至是做过类似工作的人都或多或少造成过困扰。尝试着写一写...

2019-01-26 15:44:56

阅读数 91

评论数 0

GitBook入手

文章目录1. 前言2. 准备工作2.1. 安装Node.js2.2. 安装GitBook 1. 前言 事情的起由是最近两天心血来潮想写一本自己的书,经过多番调查最后选定了gitbook这个工具。为了安装好gitbook这个工具踩了不少坑,所以写下这篇博客,希望可以帮助到大家。下面是我配置好的界...

2019-01-02 21:17:42

阅读数 67

评论数 0

提示
确定要删除当前文章?
取消 删除