python
文章平均质量分 79
苏云南雁
喜爱技术,热爱学习,终身学习者
展开
-
python爬虫2——beautifusoap4的使用讲解与腾讯招聘网站爬虫
一、CSS 选择器:BeautifulSoup4首先和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup ...原创 2018-10-11 11:09:05 · 497 阅读 · 0 评论 -
python版佛祖镇楼,BUG辟易
print(" _ooOoo_ ")print(" o8888888o ")print(" 88 . 88 ")print(" (| -_- |) ")print(" ...原创 2018-12-02 19:39:30 · 1271 阅读 · 0 评论 -
python基础总结2——切片的概念及列表、元祖、字典的操作及公共方法
目录 一、python的数据结构1,下标和切片2,列表(1)列表的遍历(2)列表的相关操作添加元素("增"append, extend, insert)修改元素查找元素("查"in, not in, index, count)删除元素("删"del, pop, remove)排序(sort, reverse)(3)列表的嵌套3,元组4,字典...原创 2018-11-25 00:29:47 · 572 阅读 · 0 评论 -
python基础总结1——注释、变量、输入输出、字符串操作、判断语句、循环语句
目录一、变量、注释及python之禅1,老版本开头注释解释2,注释3,变量4,字符串相关操作5,数字(1)类型问题(2)整数相除6,python之禅7,print格式化输出(1)%d格式化数字(2)常用的格式符号(3)查看print帮助(4)print不换行8,输入9,运算符(1)基本说明(2)字符串重复10,类型转换...原创 2018-11-16 17:05:30 · 211 阅读 · 0 评论 -
python爬虫5——正则表达式
正则表达式很好用,之前没有体会到它的强大,在写原生的servlet程序,调用微服务时,要经常拼接字符串,写sql,需求转换成代码,没有个灵活的工具处理,真的是会被烦死的。就用sublime_txt +正则表达式,贼好用! 为什么要学正则表达式实际上爬虫一共就四个主要步骤:明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没...原创 2018-11-07 21:53:42 · 173 阅读 · 0 评论 -
python爬虫7——XPath与lxml类库、xpath helper插件
有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法?有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。什么是XMLXML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标...原创 2018-11-10 22:26:41 · 393 阅读 · 0 评论 -
python爬虫6——模拟登陆人人网
用python怎么自动登录一个网站呢?之前我也有过这样的疑问,老自己去填,多麻烦啊,接下来这篇文章将讲解怎么用python2模拟登陆人人网。一、用fiddler查看登录信息模拟登陆第一步,用fiddler查看发出访问信息的请求:网页:输入多次后,会要求输入验证码:密码我这里输入的是123,找到这个访问请求:二、检索相关元素ok,找到了它的请求参数,下一步...原创 2018-11-10 17:40:58 · 858 阅读 · 0 评论 -
python爬虫4——json数据处理
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。python 2.7自带了JSON,使用import json 就可以调用了。官方文档:http://docs.python.org/library/json.html...原创 2018-10-17 09:21:21 · 1472 阅读 · 0 评论 -
python爬虫3——爬取腾讯招聘全部招聘信息
python爬虫2中,已经有了初步的代码,之后做了优化增加了工作职责、工作要求:获取的数据有:代码如下:#!/usr/bin/env python# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport urllib2import urllibimport json # 使用了json格式存储...原创 2018-10-17 08:45:53 · 5234 阅读 · 1 评论 -
python爬虫1——python发送get、post请求、实现代理、保存cookie
目录一、urlopen方式二、增加Handler处理器 三、ProxyHandler处理器(代理设置)python2.7版本,通过urllib2发出请求一般有get、post方式发出请求一、urlopen方式get方式:response = urllib2.urlopen("http://www.baidu.com/")post方式:# 先定义data数据:...原创 2018-09-30 09:33:02 · 3373 阅读 · 0 评论 -
python基础总结3——函数
代码请参考我的github:https://github.com/masterzz/python-learn一、函数1,函数的格式python的函数定义是很简单的,如下即可:def 函数名(参数):函数代码(函数要执行的代码)而调用函数,各个语言大同小异: 函数名(参数) 如果要给函数加入文档说明:def add(a,b):"传入两个参数,返回相加值"...原创 2018-12-16 12:25:30 · 280 阅读 · 0 评论