python36(2018-3-7)
文章平均质量分 82
心月流云
......
展开
-
正则的应用-爬取内涵段子(加载更多-时间戳)
一.基本知识1.下面的网页中'http://neihanshequ.com/joke/?is_json=0&app_name=neihanshequ_web&max_time=' is_json=0获取到的是html数据is_json=1获取到的是json数据2.时间戳只要有max_time就一直有数据本次爬取的网页没有下一页,只有“加载更多”,只有获取到max_time(不同)...原创 2018-03-07 17:56:42 · 394 阅读 · 0 评论 -
正则的应用--快代理网站
网站被封,自己写的只能获取一页数据,老师写的,不能检测是否正确自己:# -*- coding:utf-8 -*-import refrom urllib import request, parseimport xlwtfrom fake_useragent import UserAgentagent = UserAgent()class IPSpider(object): ...原创 2018-03-07 18:00:00 · 221 阅读 · 0 评论 -
代理ip的用法
1.代理ip用法例1 url = 'http://www.baidu.com' # 准备代理ip proxy_ip = { 'http': '139.224.135.94:80' } # 根据代理ip创建代理对象 proxy_handler = request.ProxyHandler(proxy_ip) # 自己创建一个发送...原创 2018-03-07 18:03:46 · 16876 阅读 · 0 评论 -
工具类 2018-3-7代码中引用
1.工具类自己另外写一个文件,该文件中的类,满足对数据的某些处理,不用和数据类在一个文件中数据类文件可以直接引用# -*- coding:utf-8 -*-import reimport sqlite3class Tools(object): @classmethod def strip_char(cls, string): """ :p...原创 2018-03-07 18:06:56 · 225 阅读 · 0 评论 -
正则的应用--糗事百科(数据写入数据库中)
一.基本知识1.delete from qsbk先删除数据库中的数据,在执行本文件2.需要引入的包import reimport timefrom tool import Tools, DBManagerfrom urllib import requestfrom fake_useragent import UserAgentagent = UserAgent()3.当网页在第一页的时候...原创 2018-03-07 18:16:44 · 230 阅读 · 0 评论