- 博客(20)
- 资源 (1)
- 收藏
- 关注
原创 被解救的Django【2】
第三部分:创建一个投票应用1. 简介它包含两部分:其一是:一个公开的网站,可以让访客查看投票的结果并让他们进行投票。其二是:一个后台管理网站,你可以添加、修改和删除选票。2. 创建一个项目打开命令行,cd到工程目录pro1,键入命令:$django-admin startproject mysite
2017-10-31 20:17:48 712
原创 被解救的Django【1】
第一部分:Django 简介Django项目是一个python定制框架,它源自一个在线新闻 Web站点,于 2005年以开源的形式被释放出来。它鼓励快速开发,采用了MVC的框架模式,即模型M,视图V和控制器C。Django遵守BSD版权,初次发布于2005年7月,并于2008年9月发布了第一个正式版本1.0。由于Django在近年来的迅速发展,应用越来越广泛,被
2017-10-30 19:26:20 633
原创 一只爬虫带你看世界【11】
15.爬虫框架Scrapy 应用实战使用scrapy抓取一个网站需要四个步骤:Step one: 创建一个scrapy项目Step two:定义item容器Step three:编写爬虫Step four:存储容器Scrapy Engine 是框架的核心,控制数据流在所有组件的流动。 项目实战:在http://dmoztools.net/Comput
2017-10-29 20:44:36 393
原创 一只爬虫带你看世界【10】
14. 爬虫框架 Scrapy 安装及调试前言部分: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。它可以应用在数据挖掘、信息处理或者存储历史数据等一系列程序中。设计之初是为了页面抓取,应用于获取API所返回的数据,或者通用的网络爬虫。安装步骤:A:安装python 2.7.X 系列,本例下载2.7.9作为演示下载python 2.7.9,一路next安装
2017-10-28 22:33:11 253
原创 一只爬虫带你看世界【9】
13.访问状态码与异常处理前言:python默认会自动帮助处理重定向内容(状态码300-399范围),状态100-299的范围是表示成功,故需要关注的是400-599这个范围内的状态码,这个范围内的信息代表了它们响应出了问题。其中400-499表示问题来源于客户端,500-599表示问题来源于服务器端。访问状态码:小结:状态码1XX表示请
2017-10-28 17:52:47 197
原创 一只爬虫带你看世界【8】
12.使用正则表达式爬取贴吧图片(findall用法 - 返回正则表达式中单个子组)说明:采用模块化化编程思想,将打开url封装成一个函数,即open_url(url)。 使用正则表达式匹配图片: p = r' 其中[^"]+\.jpg,匹配非双引号的所有字符,并且重复(1,+)次,后缀名为.jpg形式的图片。使用()将需要信息的子组,即直接返回http://www.b
2017-10-27 22:54:04 202
原创 一只爬虫带你看世界【7】
11.正则表达式特殊符号及用法正则表达式特殊符号主要有两部分构成,其一是元字符,其二是由”\”加上字母构成的。元字符:举个栗子:>>>re.search(r'Fish(c|d)','Fishc')>>>re.search(r'Fish(c|d)','Fishd') >>>re.search(r'^Fish','Fishsdfa
2017-10-27 21:15:12 666
原创 一只爬虫带你看世界【6】
10. 使用正则表达式来匹配 ip 地址准备工作:Python中使用正则表达式时,是调用 re模块,“import re”,使用其search()方法,该方法用于在字符串中搜索正则表达式模式第一次出现的位置。举个栗子>>> import re>>> re.search(r'FishC','I loveFishC.com')通配符使用点号能够匹配除了换行符以外的任何一
2017-10-26 20:25:25 246
原创 一只爬虫带你看世界【5】#批量下载图片
9.批量下载妹子图使用模块化的思想进行代码搭建,主函数为 download_mm,其中包含了url_open(url)、 get_page(url)、find_imgs(url)、save_imgs(folder,img_addrs)四个模块,模块一:url_open(url):用于网址访问,多次调用,故抽象出一个模块,该模块返回html,但是不decode编码格式,由于不知返回的文字信息
2017-10-25 22:58:54 567
原创 一只爬虫带你看世界【4】
7.模拟浏览器访问,隐藏python自身信息原理:当浏览器访问服务器上的内容时,服务器会抓取访问信息中 header 中的 User-Agent 信息,若User-Agent中显示有python信息等,则视为爬虫程序, 此时服务器会阻止它进行信息爬取。为了隐藏爬虫程序,此时使用模拟浏览器访问的方式来进行信息获取,模拟浏览器方法是添加浏览器的User-Agent,目前有两种方法添加。
2017-10-25 19:44:09 391
原创 一只爬虫带你看世界【3】
6.实战two:有道翻译 准备工作,打开有道翻译的官网,输入“陪伴是最长情的告白”,点击翻译,则会出现英文的翻译。 此时在该页面上点击右键,选择查看元素,弹出的菜单栏中选network,再点击页面上的翻译,弹出的信息中选择第一个,在信息右侧会出现header等信息,截图如下: 截图反映了服务器与浏览器之间的数据交换。其中Headers信息中,Genera
2017-10-24 19:50:54 359 2
原创 一只爬虫带你看世界【2】
5.实战one:模拟登陆网站下载 单身喵 图前言部分,提供图片服务(service)的网址:http://www.placekitten.com,该网址是各种猫图,很好玩儿,各种小猫猫图,可萌可萌了~若在http://www.placekitten.com/g/500/600加上“/g/500/600”会根据大小去锁定对应的猫图。需要用到的知识:a: urllib 模块中的r
2017-10-23 23:03:10 324
原创 一只爬虫带你看世界【1】
1.python如何访问互联网: 它自带电池。“URL” + “lib” =urllib2.URL的一般格式为: Protocol://hostname[:port]/path/[;partmeters][?query]#fragment有三部分构成:-----第一部分是协议:http,https,ftp,file等~-----第二部分是存放资源的服务器的域名系统或
2017-10-23 22:39:16 259
原创 Git带你回到过去和未来【6】#匿名分支
33.匿名分支创建一个项目 MyProject3,完成git 初始化操作。准备工作:创建1.txt,add 到暂存区,commit 到仓库;创建2.txt,add 到暂存区,commit 到仓库;创建3.txt,add 到暂存区,commit 到仓库; 查看状态图:$git log --decorate --oneline --graph --all* 0cd1
2017-10-20 16:35:48 730
原创 Git带你回到过去和未来【5】#合并、删除分支
31.合并分支:语法:git merge 分支名示例:$ git merge feature查状态:$git status两次修改了README.md ,此时机器不知怎么处理。打开README.md文件发现多了中间用=======隔开>>>>>>> feature 在master主分支上添加了“再次尝试!!!”在f
2017-10-17 19:40:27 268
原创 Git带你回到过去和未来【4】#创建、查看、切换分支
25.git分支26.创建分支语法:$git branch 分支名称示例:$ git branch feature若无任何反应则创建成功27.查看创建分支状态语法:$ git log –decorate示例:$ git log –decoratecommit fdf2ea4312b7d1c9e4d71a9c44d19b75a26945ea (
2017-10-16 22:40:34 401
原创 Git带你回到过去和未来【3】
21.修改最近的一次提交:应用场景:若工程文件只改变了README.md文件,其它的文件没有修改,此时没有必要生成新的快照。例如,暂存区域中有README.md的第三版,而仓库中的README.md的版本是第二版,此时没有必要提交再次生成新的快照;该状况下,使用的git命令为:$git commit –amend键入该命令后,输入i进入编写模式最后输入“:q!”结束此时进行
2017-10-14 22:59:50 251
原创 Git带你回到过去和未来【2】
15.版本对比(大家快来,一起找茬!!!)创建一个工程:第一步:创建一个MyProject2文件作为一个项目,并初始化Git第二步: 引入一个工程文件(这里命名为game.py,其内容是“hello world”),添加一个README.md文件,打开并编辑该md文件,“课后作业,文字游戏”,修改文件的编码格式为utf-8无bom格式,防止乱码。第三步:将两个文件提交到暂存区域,$
2017-10-14 15:28:00 355
原创 Git带你回到过去和未来【1】
1、 使用前的配置(相当注册用户)在命令行模式下输入以下命令:$git config –global user.name “test_name”$git config –global user.email “test_name@126.com” 2、 查看注册是否成功在命令行模式下输入以下命令:$git config –list 3、 Git
2017-10-13 20:22:40 532
原创 总得开个头儿
在上学时买了一本刘墉的书,“靠自己去成功”,特别喜欢该书的第一页作者称: “ 有一颗很热的心, 一对很冷的眼, 一双很勤的手, 两条很忙的腿, 和一种很自由的心情!” 境界与大师相差有些距离,但是迎步赶上昨天的自己,这个应该不难,因为: 人是一切习惯的奴隶! 超越昨天的
2017-10-13 16:10:53 255
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人