- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 PyQuery
什么是PyQuery强大又灵活的网页解析库。如果熟悉jquery,PyQuery将是绝佳的选择安装PyQuerypip3 install pyquery字符串初始化html = ''' <div> <ul> <li class="item-0">first item</li> <li class="i...
2018-07-16 15:36:53 205
原创 BeautifulSoup库详解
基本使用from bs4 import BeautifulSoup html = ''' <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"&
2018-07-16 11:35:36 232
原创 正则表达式
常用正则表达式匹配中文字符[\u4e00-\u9fa5]匹配双字节字符(包括汉字在内)[^\x00-\xff]匹配空白行\n\s*\r匹配Email地址[\w!#$%&'*+/=?^_`{|}~-]+(?:\.[\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\w](?:[\w-]*[\w])?\.)+[\w](?:[\w-]*[\w])?匹配网址URL[a-zA-z]...
2018-07-13 10:57:26 1031
原创 Requests库详解
什么是Urllib内置的一个http请求库,不需要额外的安装,不需要了解底层到底怎么实现。urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparserimport urllib2 response = urllib2.urlopen('http://www.baidu.co...
2018-07-12 17:27:13 253
原创 Python笔记本
爬虫基本原理爬虫是请求网站并提取数据的自动化程序爬虫的基本流程发起请求:通过http库想目标站点发送请求如果服务器响应,会得到一个response解析内容保存数据,保存成文本或者至数据库#!/usr/bin/env python # encoding: utf-8 import requests response = requests.get('http://www.baidu.com') pr...
2018-07-12 15:49:53 382
Jsp+Servlet+JDBC新闻发布系统2.1
2018-06-23
敏感词过滤
2017-01-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人