![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
DMU_lzq1996
这个作者很懒,什么都没留下…
展开
-
爬取糗事百科段子
import urllib.requestimport urllib.errorimport repage = 1url = 'https://www.qiushibaike.com/8hr/page/'+str(page)user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like...原创 2018-10-29 22:13:44 · 114 阅读 · 0 评论 -
TCP编程
#导入socket库import socket#创建一个sockets = socket.socket(socket.AF_INET,socket.SOCK_STREAM)#AF_INET指定使用IPv4协议,如果要用更先进的IPv6,就指定为AF_INET6#SOCK_STREAM指定使用面向流的TCP协议#建立链接s.connect(('www.sina.com.cn',80...原创 2018-12-10 22:17:36 · 177 阅读 · 0 评论 -
Scrapy框架
Spider爬取的循环流程:利用入口URL来初始化Request,此Request下载完毕返回Response并作为参数传给回调函数parse在回调函数内分析Response,返回Item对象和Request的可迭代容器其中返回的Request经过Scrapy处理,下载相应内容,调用回调函数在回调函数中,可以使用选择器或其他解析器来分析response,并根据分析数据生成Item和Req...原创 2018-11-30 17:01:54 · 141 阅读 · 0 评论 -
爬虫解析技术趋势
爬虫开发过程的解析网页工作占据了开发工作的80%左右,编写解析代码,虽然有一些基本工具chrome,firecdebug可以使用,但始终需要人工分析,编写解析规则。无论是使用xpath,正则表达式,css selector,都不能减少这一部分的工作量。智能化解析既然网页解析工作量大,重复性高,那么能否利用当前的人工智能来对网页进行自动化解析呢,这样就可以不用人工编写,减少工作量的同时,也可以大...原创 2018-12-04 20:17:21 · 540 阅读 · 0 评论 -
selenium爬取去哪网酒店信息
直接上代码# -*- coding: utf-8 -*-"""Created on Sat Nov 24 11:20:24 2018@author: DMU刘小强"""from selenium import webdriverimport timefrom bs4 import BeautifulSoupimport datetimeimport codecsfrom s...原创 2018-11-24 20:57:04 · 1141 阅读 · 0 评论 -
csv存储
import csvheaders = ['ID','UserName','Password','Age','Country']rows = [(1001,'qiye','qiye_pass',24,'China'),(1002,'刘小强','Mary_pass',20,"USA"),(1003,"Jack","Jack_pass",20,"USA")]with open ('qiye....原创 2018-11-20 11:33:52 · 266 阅读 · 0 评论 -
动态网站爬虫框架
下载器import requestsclass HtmlDownloader(object): def download(self,url): if url is None: return None user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) ...原创 2018-11-24 09:06:24 · 317 阅读 · 0 评论 -
Web前端基础2-表现和行为
2.1.2 csscss层叠样式表三种方式:内联样式表;嵌入式样式表;;外部样式表两个主要部分:选择器和声明HTML标记定义;ID选择器;class选择器常见属性:1.颜色属性2.字体属性3.背景属性4.文本属性5.列表2.1.3 JavaScript直接插入代码和外部引用js文件直接插入代码:< script>…</ script>外部引用js文件:<...原创 2018-11-17 11:23:23 · 306 阅读 · 0 评论 -
基础爬虫框架
URL管理器:class UrlManager (object): def __init__(self): self.new_urls = set() #未爬取URL集合 self.old_urls = set()#已爬取URL集合 def has_new_url(self): #判断是否有未爬取的URL ret...原创 2018-11-22 10:05:06 · 179 阅读 · 0 评论 -
Web前端基础1-结构
2.1 W3C标准网页主要有三部分组成:结构,表现和行为。对应标准:结构化标准语言(HTML.XML),表现标准语言(CSS),行为标准(W3C DOM,ECMScript)2.1.1 HTML一种网页信息的符号标记语言,HTML语言的特点:1.HTML的基本结构............元信息2.文档设置标记:换行:段落标记:居中对齐:预格式化标记:列表项目标记:...原创 2018-11-15 10:28:12 · 251 阅读 · 0 评论 -
网络编程
python提供了两个基本的Socket模块:Socket和SocketServer1.Socket类型2.socket函数1.5.1 TCP编程服务器端创建和运行TCP连接步骤:import socketimport threadingimport timedef dealClient(socket,addr): #第四步:接受传来的数据,并发送给对方数据 ...原创 2018-11-15 09:34:15 · 179 阅读 · 0 评论 -
初识网络爬虫-网络爬虫概述
3.1 网络爬虫概述3.1.1 网络爬虫及其应用分类:通用,聚焦,增量,深层搜索引擎:通用网咯爬虫定向抓取相关网页中资源:聚焦爬虫增量式爬虫:针对已经更新的网页资源深层网络爬虫:隐藏在表层链接后面的web页面网络爬虫实际运用场景:BT网站;云盘搜索;3.1.2 网络爬虫结构3.2 HTTP请求python实现三种方式:urllib2/urllib,httplib/urllib...原创 2018-11-18 19:38:24 · 318 阅读 · 0 评论 -
进程
#使用multiprocessing模块创建多进程import osfrom multiprocessing import Processdef run_proc(name): print('Child process %s (%s) Running...'%(name,os.getpid()))if __name__ == '__main__': print('Paren...原创 2018-11-12 12:32:02 · 124 阅读 · 0 评论 -
线程
添加链接描述转载 2018-11-10 11:34:31 · 184 阅读 · 0 评论 -
协程
# 协程#第三方包geventfrom gevent import monkey;monkey.patch_all()import geventimport urllib2def run_task(url): print('Visit --&amp;gt;&amp;gt;%s'%url) try: response = urllib2.urlopen(url) ...原创 2018-11-12 21:47:38 · 164 阅读 · 0 评论 -
分布式进程
#分布式进程#分布式进程六个步骤:#1.建立队列Queue,用来进程间的通信。#2.将队列Queue进行网络共享给其他进程#3.建立对象实例,绑定端口和验证口令#4.启动对象实例进行信息传输管理#5.通过对象实例将网络队列本地化#6.分配本地化队列进行进程任务处理# 调度服务进程taskmanager.pyimport random,time,Queuefrom mult...原创 2018-11-13 12:21:27 · 496 阅读 · 0 评论 -
UDP编程
import socket#服务器首先需要绑定端口s = socket.socket(socket.AF_INET,socket.SOCK_DGRAM)#SOCK_DGRAM指定了这个Socket的类型是UDP#绑定端口s.bind(('127.0.0.1',9999))print('Bind UDP on 9999....')while True: #接受数据 da...原创 2018-12-10 22:18:28 · 155 阅读 · 0 评论