冰棒的博客

这个人很懒啥都没有写~~

排序:
默认
按更新时间
按访问量

最近停更一小段时间

毕业3年 去年才真正开始好好工作学习 最近有点不知道干啥 停更一小段时间 找一下目标和动力 希望那些在路上的也能坚持走下去 付出总会有回报的...

2018-06-11 11:31:35

阅读数:6

评论数:0

20Python爬虫--Scrapy爬取和讯博客个人所有博客情况并保存到数据库

项目结构: Mysql数据库表创建语句CREATE TABLE `myhexun` ( `id` int(9) NOT NULL AUTO_INCREMENT COMMENT '文章的id', `name` varchar(60) DEFAULT NULL COMMENT '文章名'...

2018-03-24 11:01:34

阅读数:133

评论数:0

19Python爬虫--爬取新浪新闻标题并保存到数据库

一、爬取新浪新闻思路 1、创建scrapy项目 2、分析新浪新闻网站静态页面代码 3、编写对应的xpath公式 4、写代码 二、项目代码 步骤1、创建scrapy项目 创建爬虫文件 scrapy startproject mysqlpjt 进入项目目录后...

2018-03-22 13:51:01

阅读数:504

评论数:4

18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接

一、爬取新浪新闻思路 1、创建scrapy项目 2、分析新浪新闻网站静态页面代码 3、编写对应的xpath公式 4、写代码 二、项目代码 步骤1、创建scrapy项目 scrapy startproject mycwpjt 步骤2、分析新浪网站静态代码 随便打...

2018-03-21 21:07:28

阅读数:184

评论数:2

17Python爬虫---Scrapy爬取当当网特产

一、总体思路 1、创建scrapy项目 2、分析当当网特产网址 3、分析出所取部分xpath公式 4、编写item 5、编写爬虫 6、编写pipline文件将取到的数据存入到文件中 二、具体实践 1、创建scrapy项目 scrapy startproject aut...

2018-03-19 12:43:46

阅读数:119

评论数:0

python面试题---第二部分

Python 数据库 网络 算法 其他 Python 1.python参数传递是值传递还是引用传递 都是引用,对于不可改变的数据类型来说,不能改变,如果修改了,事实上是新建一个对象来对待。 2.lambda更简单,省去命名函数名的麻烦 f = lambda x,y:x+y pr...

2018-03-18 21:36:59

阅读数:69

评论数:0

python面试题--第一部分

【题目:001】| 说说你对zen of python的理解,你有什么办法看到它? Python之禅,Python秉承一种独特的简洁和可读行高的语法,以及高度一致的编程模式,符合“大脑思维习惯”,使Python易于学习、理解和记忆。Python同时采用了一条极简主义的设计理念,了解完整的Pyth...

2018-03-18 21:34:33

阅读数:72

评论数:0

python基础知识巩固

Table of Contents Python语言特性 1 Python的函数参数传递 2 Python中的元类(metaclass) 3 @staticmethod和@classmethod 4 类变量和实例变量 5 Python自省 6 字典推导式 7 Python中单下划线和双下划线...

2018-03-18 21:21:58

阅读数:226

评论数:2

16Python爬虫---Scrapy小结

1、我们可以通过scrapy startproject -h调出startproject的帮助信息,在这里可以看到scrapy startprojcct具体可以添加哪些参数。 2、如果我们想要删除某个爬虫项目,我们可以直接删除该爬虫项日对应的文件夹即可方式。 3、可以使用 genspider命...

2018-03-17 15:17:53

阅读数:27

评论数:0

16Python爬虫---Scrapy多开技能

在Scrapy项目中创建一个文件夹存放我们自己编写的mycrawl文件,然后创建3个爬虫myspd1,myspd2,myspd3 项目结构 下面为mycrawl.py源码 import os from scrapy.commands import ScrapyCommand from s...

2018-03-16 22:37:03

阅读数:42

评论数:0

16Python爬虫---Scrapy常用命令

常用命令 1、全局命令 全局命令即为不进入Scrapy爬虫项目所在目录的情况下,运行scrapy命令。运行scrapy -h,在commands下回出现所有的全局命令。分别为fetch、runspider、settings、shell、startproject、version、view。 其...

2018-03-15 16:04:53

阅读数:65

评论数:0

16Python爬虫---Scrapy目录结构以及项目创建

一、Scrapy目录结构   在分析之前项目结构的含义之前,我们会先创建爬虫项目。会生成一个与爬虫项目名称同名的文件夹,该文件夹下拥有一个同名的子文件夹和一个scrapy.cfg文件。 在同名文件夹mypyj1下存放的爬虫项目的核心代码 scrapy.cfg文件主要是爬虫项目的配置文件 ...

2018-03-15 00:34:46

阅读数:143

评论数:0

Scrapy安装和使用遇到的坑

坑一、遇到ypeError: ‘float’ object is not iterable,多半是因为twisted和scrapy不匹配 python3 -m pip install Twisted==16.6.0安装老版本 如果安装报错的话,最简单的方法就是scrapy要安装最新版的,不是你...

2018-03-14 16:13:28

阅读数:52

评论数:0

15Python爬虫---爬虫定向爬取腾讯视频网---利刃出击评论

先贴上代码后面补充上解析,代码缺陷没有对对评论的回复进行处理爬取 import urllib.request import http.cookiejar import re # ----------对象赋值-----------------------------------------...

2018-03-09 00:29:02

阅读数:194

评论数:0

14Python爬虫---爬虫伪装浏览器

一、什么是浏览器伪装技术   有一些网站为了避免爬虫的恶意访问,会设置一些反爬虫机制,常见的饭爬虫机制主要有:   1、通过分析用户请求的Headers信息进行反爬虫   2、通过检测用户行为进行反爬虫,比如通过判断同一个IP在短时间内是否频繁访问对应网站等进行分析   3、通过动态页面增...

2018-03-07 11:38:29

阅读数:115

评论数:0

13Python爬虫---Fiddler断点应用实例

步骤: 1、设置好响应断点 2、打开www.baidu.com 3、网站响应被中断,继续响应获取服务器返回结果 4、修改返回结果,将响应信息返回给浏览器 1、打开www.baidu.com 2、点击该网址后,Fiddler右方可以编辑对应的响应信息,将标签切换为”TextV...

2018-03-05 17:36:24

阅读数:48

评论数:0

12Python爬虫---Fiddler抓包工具使用

一、什么是Fiddler 二、爬虫与Fiddler不得不讲的事 三、Fiddler基本原理与界面 1、Fiddler工作原理 2、Fiddler界面 3、捕捉会话功能 四、Fiddler的QuickExec的简单使用 1、cls 2、select 3、? 4、help 五、Fid...

2018-03-05 17:09:19

阅读数:154

评论数:0

11Python爬虫---爬虫实战小结

1)进行网页信息提取分析的时候,经常要学会寻找特殊标识,特殊标识要满足唯一性,并且包含要爬取的信息,以及尽量少的无关信息. 2)通过爬虫进行自动化爬取,可以为我们省下很多事情。比如,有些站长需要采集些内容到自己的网站上,如果通过复制粘贴的方式,耗费的精力非常大,而采用爬虫的方式,我可以直接将关注...

2018-03-05 10:49:27

阅读数:54

评论数:0

Python数据挖掘07--KNN算法理论与实现

一、KNN算法   KNN算法是一种解决分类问题的算法之一。 一般实现KNN算法有两种思路: 1、通过KNN算法自行写Python代码源生实现 2、依据一些集成模块直接调用实现 二、KNN算法理论思路 1、计算新个体到各旧数据之间的距离 2、统计出距离最短的前K个商品 ...

2018-03-03 22:23:12

阅读数:30

评论数:0

Python数据挖掘06--淘宝网数据处理

淘宝数据:第一列标题,第二列链接,第三列价格,第四列评论 所用到数据sql文件点击下载 一、数据预处理   数据预处理指的是对数据进行初步处理,把脏数据处理掉,否则很容易影响最终结果。 常见的的预处理包括: 1、缺失值处理 2、异常值处理 3、数据集成 在数据量大的情况下采...

2018-02-28 23:41:24

阅读数:121

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭