Python
文章平均质量分 65
默默的沉默者
这个作者很懒,什么都没留下…
展开
-
Pyhon 网络爬虫--简单的爬取功能
从网页上爬取内容大致分为三步:1、获取整个网页信息(源代码) 2、通过正则匹配,获取指定标签中的内容 3、将获取到的内容写到本地中一、获取整个网页信息(源代码)# coding utf-8import urllib.requestdef getHtml(url): html = urllib.request.urlopen(url).read() retu原创 2017-04-18 22:16:58 · 835 阅读 · 0 评论 -
Python 网络爬虫--简单的模拟登录
和获取网页上的信息不同,想要进行模拟登录还需要向服务器发送一些信息,如账号、密码等等。模拟登录一个网站大致分为这么几步:1.先将登录网站的隐藏信息找到,并将其内容先进行保存(由于我这里登录的网站并没有额外信息,所以这里没有进行信息筛选保存)2.将信息进行提交3.获取登录后的信息先给上源码# -*- coding: utf-8 -*-import requestsd原创 2017-04-19 18:28:22 · 11717 阅读 · 0 评论 -
Python 网络爬虫--简单的爬取一些防爬取的网站
网站防采集的前提就是要正确地区分人类访问用户和网络机器人。虽然网站可以使用很多识别技术(比如验证码)来防止爬虫,但还是有一些十分简单的方法,可以让你的网络机器人看起来更像人类访问用户。构造合理的 HTTP 请求头,可以使机器人网络爬取机器人更像一个访问用户1.在没有使用HTTP请求头时,我们来获取CSDN一篇博客的网页内容时情况是这样的:代码如下:# coding utf-8im原创 2017-04-20 17:07:50 · 2188 阅读 · 0 评论 -
Python--windows下面给Python添加库包的两种方法
一、第一种方法(这种方法比较简单)用到IDE工具:pycharm(个人觉得挺好用)要用到的包可以用pycharm下载: File->Default Settings->Default Project->Project Interpreter 选择python版本并点右边的加号安装想要的包 二、第二种方法第一步,我们先来安装Python,博主选择的版本是最原创 2017-04-21 15:24:55 · 33308 阅读 · 0 评论 -
Python——包管理工具Pip
Python包管理工具——Pip目录1 前言2 获取pip2.1 脚本安装pip2.2 使用包管理软件安装2.3 更新pip3 pip基本使用3.1 安装PyPI软件3.2 查看具体安装文件3.3 查看哪些软件需要更新3.4 升级软件包3.5 卸载软件包4 pip简明手册4.1 安装具体版本软件4.2 Requirements文件安装依赖软件4.转载 2017-04-22 11:31:51 · 660 阅读 · 0 评论