python36(2018-3-8)
文章平均质量分 78
心月流云
......
展开
-
正则的应用--爬取百度贴吧NBA的精品贴详细的回复信息
1.代码中需要引入的包import refrom urllib import requestfrom fake_useragent import UserAgentagent = UserAgent()from tool import Toolsimport xlwt2.解析url爬取-----精品贴https://tieba.baidu.com/f?kw=nba&tab=good&...原创 2018-03-08 19:09:06 · 401 阅读 · 0 评论 -
正则的应用--读取本地文件1--例如豆瓣-codecs
1.之前ip没有被封,可以查询出 所有的评论# -*- coding:utf-8 -*- # codecs 打开文件可以指定编码方式 import codecs import re from urllib import request import json from fake_useragent import UserAgent agent = UserAgent() with codecs....原创 2018-03-08 19:17:36 · 1313 阅读 · 0 评论 -
正则的应用--读取本地文件2--网页版解析--豆瓣
第一部分读取本地文件1.进入豆瓣主页,获取其网页源代码,保存下载到本地,由于代码过多,这里就不展现出来了2.进入影评主页,获取源代码,保存下载到本地3.在本地文件中进行解析test.json文件中代码为:{"body":"\n \n \n \n \n <div class=\"main-bd\">\n\n\n \n \n \n\n <div id=\...原创 2018-03-08 19:36:15 · 523 阅读 · 0 评论 -
bs4_lxml的基本用法(不同于正则和xpath)
1.本文件需要引用的index.html文件代码为:<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>bs4测试网页</title> <style>原创 2018-03-08 20:14:54 · 4169 阅读 · 1 评论