关闭
当前搜索:

Python获取网页编码的两种方法——requests、chardet

方法一:使用requests模块In[2]: import requests In[3]: res = requests.get('http://baidu.com') In[4]: res Out[4]: In[5]: res.encoding Out[5]: 'ISO-8859-1'方法二:使用chardet模块import chardet from urlli...
阅读(25) 评论(0)

Python爬虫(四):爬取136书屋小说,并保存至本地文本文件中,单进程多进程对比效率(以三生三世十里桃花为例)

运行环境:Python3.6、Pycharm2017.3、Windows10 RS3、requests2.18.4、BeautifulSoup4.6.0 简介 小说网址:http://www.136book.com/ 通过修改136book小说网中具体小说的url来爬取不同小说的分章节批量下载 该代码以三生三世十里桃花为例(链接) –>http://www.136book.com/sanshengs...
阅读(42) 评论(0)

常用正则表达式汇总—(数字匹配/字符匹配/特殊匹配)

来源于知乎专栏:https://zhuanlan.zhihu.com/p/29619457 这个是我在知乎上看到前辈的专题,里面的专栏帮助了我很多,推荐大家去看看。 - 文章底部有很熟悉的一张正则表附图 1. 校验数字的表达式 2.校验字符表达式 3.特殊需求表达式...
阅读(64) 评论(0)

(已更新)获取CSDN访问量、排名等信息存入JSON文件并绘图进行分析

运行环境: Python3.6、Pycharm2017.2、Windows10 RS4 前言我的CSDN博客是今年八月份才开始写的,写博客的主要目的是对近期学习的知识点进行总结。在写博客的过程中也开始关注博客访问量、排名等等信息。 因为正在练习爬虫技巧,所以我写了一个爬虫程序来获取我的CSDN博客访问量、排名、原创文章数、评论数这四个信息。 初级目标是将其存入json或csv文件中 最终目标是通过...
阅读(75) 评论(0)

爬取猫眼电影网经典电影TOP100信息Markdown效果展示

No:1霸王别姬主演:张国荣,张丰毅,巩俐上映时间:1993-01-01(中国香港)评分:9.6了解更多…No:2肖申克的救赎主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿上映时间:1994-10-14(美国)评分:9.5了解更多…No:3罗马假日主演:格利高利·派克,奥黛丽·赫本,埃迪·艾伯特上映时间:1953-09-02(美国)评分:9.1了解更多…No:4这个杀手不太冷主演:让·雷诺,加里·奥德...
阅读(335) 评论(0)

Python爬虫(三):爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件(下)

运行环境:Python3.6.2、Pycharm2017.2 附此爬虫代码GitHub地址:https://github.com/IMWoolei/MaoYanMovies 上一篇博客【链接】正文Markdown作为一个易上手的标记书写语言,能够提供高效清晰的书写板是,一直是我很喜欢的书写工具。 Python的第三方库中提供了Markdown模块,用于Markdown的书写,以及提供转htm...
阅读(115) 评论(0)

Python爬虫(三):爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件(上)

运行环境:Python3.6.2、Pycharm2017.2 附此爬虫代码GitHub地址:https://github.com/IMWoolei/MaoYanMovies ==>【效果链接】 正文分析需要获取的信息进入到猫眼网经典电影TOP100页面【链接】 需要抓取的数据有名次,海报,影片名、主演、上映时间以及评分。网页信息分析 从中可以看到,每一步影片的信息都分别存在于<...
阅读(142) 评论(0)

补充:批量下载百度贴吧图片Demo

之前在我的一篇博客中写了一个爬虫小程序,是用于通过接收用户百度贴吧帖子网址输入,然后批量下载楼层图片的一个小爬虫【博客地址】。 实现特别简单,都是获取百度贴吧图片资源的url信息,不过这次换作用BS4模块来实现,下面写了一个小Demo。# !/usr/bin/env pythonfrom urllib.request import urlopen from bs4 import Beautiful...
阅读(70) 评论(0)

Python爬虫(二)之使用标准库爬取糗事百科段子

前言作为爬虫入门练手必爬作业——爬取糗事百科段子,相对来说比较好爬取。之前用BeautifulSoup模块爬取过,这次摆脱第三方库,使用标准库来实现一下。代码块(一)获取首页段子根据网页HTML内容可发现一个段子版块的相关标签,我们提取段子作者、段文、以及点赞数即可。 获取首页段子代码#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2...
阅读(363) 评论(0)

Python爬虫(一)之获取代理IP

设置代理IP的原因我们在使用Python爬虫爬取一个网站时,通常会频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,这样便不会出现因为频繁访问而导致禁止访问的现象。代码模块(一)获取代理IP列表这里以西刺代理IP为例(链接),免费和方便爬取以获取IP是它的优点。但是据说经常会出现无...
阅读(179) 评论(0)

Python2和Python3中urllib库中urlencode的使用注意事项

前言在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。对于Python2Python2中提供了urllib和urllib2两个模块。 urlencode方法所在位置为: urllib.urlencode(values) # 其中value...
阅读(273) 评论(0)

Linux中Ctrl Z和Ctrl C的区别

参考来源:http://www.pythontip.com/blog/post/13123/ 两者区别关于Ctrl+Z和Ctrl+C这两个命令,他们都是中断命令,但是他们的作用却不一样。 Ctrl C是强制终止程序的执行并结束进程。而Ctrl Z则只是中断任务的执行,但该任务并没有结束,它只是在进程中维持挂起的状态,用户可以使用fg/bg操作来继续前台/后台执行该任务。 fg命令会重启前...
阅读(61) 评论(0)

MySQL学习笔记(六):MySQL中查看和修改表的存储引擎

我看网上有很多博客文章对各存储引擎都有了一个比较详细的阐述,但是多数是文字,各个储存引擎之间的对比不够明显。所以我上IMOOC网找了一个截图方便对比。 存储引擎的修改MySQL初始默认引擎MySQL初始默认引擎为InnoDB。 关于InnoDB的介绍从这篇文章中摘选了一些介绍【原文链接】:InnoDB是一个健壮的事务型存储引擎,这种存储引擎已经被很多互联网公司使用,为用户操作非常大的数据...
阅读(74) 评论(0)

MySQL中的注释符号的使用

原文地址:http://paulfzm.iteye.com/blog/748507 前言在学习MySQL的过程中,因为目前接触的语法简单,所以实在没有想到过加入注释。在写博客使用Markdown时,突然想用注释语句,所以便百度了一下,引用了这一篇转载博客。MySQL中的注释符号有三种 #... -- ... /*...*/ 注意事项: 其中...表示注释的文本内容 ★ 在使用-- ...注释...
阅读(118) 评论(0)

MySQL学习笔记(五):DELIMITER修改结束符及其应用

关于DELIMITER在MySQL中默认的结束符DELIMITER是;,它用于标识一段命令是否结束。在默认情况下,在命令行客户端中,如果有一行命令以;结束,那么回车后,MySQL将会执行该命令。修改DELIMITER如何修改在使用习惯中,我们经常将结束符更改为 ;; 、// 、 $$ 等。 DELIMITER 新的换行符...
阅读(119) 评论(0)
63条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:22933次
    • 积分:741
    • 等级:
    • 排名:千里之外
    • 原创:49篇
    • 转载:14篇
    • 译文:0篇
    • 评论:8条
    文章分类
    最新评论