原博文
2020-05-13 17:28 −
一、使用python写CGI程序
CGI(Common Gateway Interface)也叫通用网关接口,它是一个web服务器主机提供信息服务的标准接口,只要遵循这个接口,web服务器就能获取客户端提交的信息,转交给服务端的CGI程序进行处理,然后将处理结果返回给客户端。CGI通讯是由两部分组成...
0
1165
相关推荐
2019-12-22 19:04 −
一、反爬策略
1、请求头
——user-agent ——referer ——cookie
2、访问频率限制
——代理池 ——再用户访问高峰期进行爬...
2019-12-03 17:12 −
文件做的就是持久化保存数据 -> 文件保存硬盘或者磁盘内存的数据只有在程序运行时候存在
对文件操作流程1.打开文件,得到文件句柄并赋值给一个变量2.通过句柄对文件进行操作3.关闭文件
# data = open("test_file").read()
data = open("test_fi...
2019-12-18 14:27 −
遇到问题xml文件读写,没有子节点需要新建ChildNode。
1 # -*- coding: utf-8 -*-
2 import os
3 import shutil
4 import xml.dom.minidom
5 6 def correctxml(srcdi...
2019-12-17 15:05 −
一、安装XlsxWriter模块pip install XlsxWriter二、常用方法
import xlsxwriter
import datetime
workbook = xlsxwriter.Workbook("new_excel.xlsx") #创建Excel
worksheet =...
2019-12-18 15:45 −
HTMLParser类的定义及常用方法
类的定义
HTMLParser主要是用来解析HTML文件(包括HTML中无效的标记)。
参数convert_charrefs表示是否将所有的字符引用自动转化为Unicode形式,Python3.5以后默认是True。
HTMLParser可以接收相应的HTM...
2019-12-02 14:47 −
# 从mysql读数据
import pymysqlimport pandas as pddb = pymysql.connect(host="127.0.0.1", port=3306, user="root", passwd="密码", database='数据库名', charset='utf...
2019-12-08 03:15 −
Python使用爬虫技术时,每运行一次,本地都会访问一次主机。为避免完成程序前调试时多次访问主机增加主机负荷,我们可以在编写程序前将网页源代码存在本地,调试时访问本地文件即可。现在我来分享一下爬取资料的调试过程。
一、将网页源代码存在本地
1、打开需要爬取的网页,鼠标右键查看源代码
2、复...
1
9799
2019-12-19 18:10 −
html5不基于SGML(标准通用置标语言),因此不需要对DTD进行引用,但是需要doctype来规范浏览器的行为(让浏览器按照他们应该的方式来运行)
而HTML4.01基于SGML,所以需要对DTD进行引用,才能告知浏览器文档所使用的文档类型。...
2019-12-10 14:50 −
1.读取Excel
最简单的方式:使用xlrd模块
import xlrd
xlrd.open_workbook('filename.xls')
注意,可能出现问题,由于可能不是标准的xls文件,可能出现错误,如下:
xlrd.biffh.XLRDError: Unsupported form...