Crawler-Python
空巷丨
这个作者很懒,什么都没留下…
展开
-
python爬虫
爬虫 定义 请求网站并提取数据的自动化程序 基本流程 向服务器发起请求:即发送一个Request,请求可以包含额外的headers等信息,等待服务器的响应 获取相应内容:如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML、JSON、二进制文件(如图片、视频等类型) 解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解...原创 2019-04-08 13:18:50 · 217 阅读 · 0 评论 -
Python爬虫-视频爬取示例
爆米花视屏下载 代码 python import requests import re import time from selenium import webdriver import threading import os import pyqt5 def getUrl(): url = "https://www.baomihua.com/funny" payload =...原创 2019-04-08 13:22:37 · 4000 阅读 · 0 评论 -
常熟理工学院内网打卡查询代码
打卡查询 代码 import requests import http.cookiejar import urllib from bs4 import BeautifulSoup import os def search(username): url = "http://10.28.102.51/student/checkUser.jsp?userName=%s&passwd=%...原创 2019-04-21 10:42:35 · 1020 阅读 · 2 评论 -
正则表达式
正则表达式 字符匹配 符号 意义 使用 结果 “.” 匹配除换行符以外的任何字符 re.findall(’.’,‘abcbcd’) [‘a’, ‘b’, ‘c’, ‘b’, ‘c’, ‘d’] “^” 匹配字符串的开头 re.findall(’^a’,‘abcbcd’) [‘a’] “$” 匹配字符串末尾或字符串末尾换行符之前 re.findall(‘d$’,‘abcbcd...原创 2019-04-22 15:44:12 · 198 阅读 · 0 评论 -
python爬虫-全国列车信息查询
列车信息 代码: python import urllib from urllib.request import urlopen from bs4 import BeautifulSoup import pymysql import requests import FromAToB def getHtml(start,arrive,time): start=urlChange(st...原创 2019-04-19 21:47:38 · 866 阅读 · 0 评论