- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 网络数据爬取(一)初试BeautifulSoup
学习网络数据采集(一)创建一个网络爬虫来抓取 http://www.pythonscraping.com/pages/warandpeace.html这个网页。 在这个页面里,小说人物的对话内容都是红色的,人物名称都是绿色的。抓出整个页面,然后创建一个 BeautifulSoup 对象:from urllib.request import urlopenfrom ...
2018-08-22 21:33:43 923
原创 爬取百度图片的几个版本
今天在github上找到了python爬虫的简单项目:(https://github.com/yhangf/PythonCrawler/blob/master/spiderFile/baidu_sy_img.py)测试网址为:url = "https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=2013265...
2018-08-22 16:51:47 1062
原创 python3爬虫—实现简单获取贴吧信息
今天看到传智播客有关爬虫的视频课,其中使用的语言为python2版本,经过本人的修改将其用python3实现。在此过程中学到一些东西,特此记录。知识点一:注意观察被爬网站的域名特点。知识点二:按照页数爬取信息。知识点三:注意编码格式的问题,可解决:写入文件时UnicodeEncodeError: 'gbk' codec can't encode chara...
2018-08-19 22:45:27 11375
原创 python简单实现tcp服务器端
tcp(传输控制协议)常用于web服务器开发,因为它具有稳定性,且速度仅较udp稍慢。服务器端源码如下:from socket import *serverSocket = socket(AF_INET,SOCK_STREAM)serverSocket.bind(("",8899))serverSocket.listen(5)print("----------1-------...
2018-08-17 11:40:10 7560
原创 使用socket+udp协议完成广播功能
闲话少叙,直接上代码。服务器端:客户端:源程序下载:https://github.com/HanXia001/python3-udp-/tree/master
2018-08-16 11:06:34 1676
原创 不同端口间的信息交换-使用udp协议
本文主要内容: 1.套接字(socket)简介; 2.udp简介; 3.udp发送数据及接收数据; 4.模拟qq聊天。1.套接字(socket)简介 本地可以通过进程PID来唯一标识一个进程,但在网络中这是行不通的。ip地址可以唯一标识网络中的主机,传输层的“协议+端口号”可以唯一标识主机...
2018-08-15 10:24:33 2196
原创 k-means聚类算法原理及python3实现
本文完成程序及测试数据集详细见:https://github.com/HanXia001/k-means-python3-本文主要内容: 1.k-means解决的问题; 2.k-means原理介绍; 3.k-means的简单实现。1.k-means解决的问题 k-...
2018-08-09 11:01:17 79999 29
spark-2.0.0-bin-hadoop2.6.tgz (内含有Pyspark 2.7.12)
2020-03-18
scala-2.11.6.zip
2020-03-16
sublime-text_build-3126_amd64.zip
2020-03-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人